计算机科学

首页 > 计算机科学

多元分类

2018-08-28 09:34:26     所属分类:分类算法
请不要和多标签分类相混淆

在机器学习中,多元分类 是将示例归类为多个(大于两个)类别中的一类(将示例归为两类中的一类被称为二元分类)。

一些分类算法自然地允许使用超过两类,另一些自然是二元分类算法;然而,它们可以通过多种策略转化为多元分类。

多元分类不应该和多标签分类相混淆,多标签分类要为每个示例预测多个标签,即一个示例可以同时被归为多个类别。

目录

  • 1 一般策略
    • 1.1 One-vs.-rest
    • 1.2 One-vs.-one
  • 2 另见
  • 3 注释
  • 4 参考资料

一般策略

这部分讨论将多元分类问题化简为多个二元分类问题的策略。

One-vs.-rest

one-vs.-rest[1]:182, 338 (或one-vs.-all,OvA或OvR)策略需要为每一个类建立一个唯一的分类器,属于此类的所有样例均为正例,其余的全部为负例。这一策略需要基础分类器去产生一个实值置信度以供决策,而不仅仅是一个类标签;单独产生的类标签可能会导致归类的不明确,以致于一个样例会被预测属于多个类。[1]:182[注 1]

用伪代码表示,一个OvA学习者的训练算法从一个二元分类学习者L中建立,具体如下:

输入:
  • L,一个学习者(二元分类器的训练策略)
  • 样例集X
  • 标签集y 使yi ∈ {1, … K} 是样例Xi的标签
输出:
  • 一个分类器的序列fkk ∈ {1, …, K}
程序:
  • For each k in {1, …, K}:
    • 构建一个新标签向量 yi = 1 where yi = k, 0 (or −1) elsewhere
    • L 应用于Xy 以获得fk

做出决策意味着要将所有的分类器应用于一个未知样例x ,并且预测出产生最大置信度的分类器所对应的标签k

尽管这一策略很流行,但它是一个受些许问题困扰的启发法。首先,分类器之间置信值的范围可能不同。其次,即使一个训练集的类是均衡分布的,二元分类器学习者所看到的类分布也是不均衡的,因为它们所看到的负例集通常比正例集来的大。[1]:338

One-vs.-one

在one-vs.-one (OvO) 化简中,对于一个K类多元问题,训练 K (K − 1) / 2 个二元分类器;每一个从初始训练集中收到一对类样例,并且必须学习去区分这两个类。在预测时间内,会有一个投票:所有 K (K − 1) / 2 个解释器被应用于一个未知样例,并且那个得到最多"+1" 预测的类会成为组合分类器的预测结果。[1]:339

像OvR一样, OvO也受些许问题困扰:在它输入空间的一些区域会收到相同数目的投票。[1]:183

另见

  • 二元分类
  • 一元分类
  • 多标签分类
  • 多元感知器 在 感知器

注释

  1. ^ 在多标签分类中,OvR被认为是“二元相关性”,并且被预测成多个类别被认为是一项特色,而非问题

参考资料

  1. ^ 1.0 1.1 1.2 1.3 1.4 Bishop, Christopher M. Pattern Recognition and Machine Learning. Springer. 2006. 

上一篇:决策树学习
下一篇:支持向量机
相关推荐