机器学习 - 监督
监督学习是训练机器所涉及的重要学习模型之一。本章详细讨论了相同的内容。
监督学习算法
有多种算法可用于监督学习。一些广泛使用的监督学习算法如下所示 -
- k-最近邻
- 决策树
- 朴素贝叶斯
- 逻辑回归
- 支持向量机
当我们继续本章的内容时,让我们详细讨论每种算法。
k-最近邻
k 最近邻,简称 kNN,是一种统计技术,可用于解决分类和回归问题。让我们讨论使用 kNN 对未知对象进行分类的情况。考虑对象的分布,如下图所示 -
来源:
https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm
该图显示了三种类型的对象,以红色、蓝色和绿色标记。当您在上述数据集上运行 kNN 分类器时,每种类型的对象的边界将被标记为如下所示 -
来源:
https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm
现在,考虑一个新的未知物体,您想要将其分类为红色、绿色或蓝色。如下图所示。
正如您所看到的,未知数据点属于一类蓝色对象。从数学上讲,这可以通过测量该未知点与数据集中所有其他点的距离来得出。当您这样做时,您会知道它的大部分邻居都是蓝色的。到红色和绿色物体的平均距离肯定大于到蓝色物体的平均距离。因此,这个未知物体可以被归类为属于蓝色类。
kNN 算法也可用于回归问题。kNN 算法可在大多数 ML 库中随时使用。
决策树
流程图格式的简单决策树如下所示 -
您将编写一段代码来根据此流程图对输入数据进行分类。该流程图是不言自明且简单的。在这种情况下,您尝试对传入电子邮件进行分类以确定何时阅读它。
实际上,决策树可能很大而且很复杂。有多种算法可用于创建和遍历这些树。作为机器学习爱好者,您需要了解并掌握这些创建和遍历决策树的技术。
朴素贝叶斯
朴素贝叶斯用于创建分类器。假设您想从水果篮中挑选(分类)不同种类的水果。您可以使用水果的颜色、大小和形状等特征,例如,任何颜色为红色、形状为圆形、直径约为 10 厘米的水果都可以被视为苹果。因此,为了训练模型,您将使用这些特征并测试给定特征与所需约束匹配的概率。然后将不同特征的概率组合起来,得出给定水果是苹果的概率。朴素贝叶斯通常需要少量的训练数据来进行分类。
逻辑回归
看下图。它显示了数据点在 XY 平面上的分布。
从图中,我们可以直观地检查红点和绿点的分离情况。您可以画一条边界线来分隔这些点。现在,要对新数据点进行分类,您只需确定该点位于线的哪一侧。
支持向量机
看下面的数据分布。这里三类数据不能线性分离。边界曲线是非线性的。在这种情况下,找到曲线方程就变成了一项复杂的工作。
来源: http: //uc-r.github.io/svm
在这种情况下,支持向量机 (SVM) 可以方便地确定分离边界。