- 使用 Python 进行机器学习
- 家
- 基本
- Python生态系统
- 机器学习方法
- ML 项目的数据加载
- 通过统计了解数据
- 通过可视化了解数据
- 准备数据
- 数据特征选择
- 机器学习算法 - 分类
- 介绍
- 逻辑回归
- 支持向量机(SVM)
- 决策树
- 朴素贝叶斯
- 随机森林
- 机器学习算法 - 回归
- 随机森林
- 线性回归
- 机器学习算法 - 聚类
- 概述
- K均值算法
- 均值平移算法
- 层次聚类
- ML 算法 - KNN 算法
- 寻找最近的邻居
- 性能指标
- 自动工作流程
- 提高机器学习模型的性能
- 提高 ML 模型的性能(续……)
- 使用 Python 进行机器学习 - 资源
- 使用 Python 进行机器学习 - 快速指南
- 使用 Python 进行机器学习 - 资源
- 使用 Python 进行机器学习 - 讨论
机器学习 - 性能指标
我们可以使用多种指标来评估机器学习算法、分类以及回归算法的性能。我们必须仔细选择评估机器学习性能的指标,因为 -
如何衡量和比较机器学习算法的性能将完全取决于您选择的指标。
您如何权衡结果中各种特征的重要性将完全受到您选择的指标的影响。
分类问题的性能指标
我们在前面的章节中讨论了分类及其算法。在这里,我们将讨论可用于评估分类问题预测的各种性能指标。
混淆矩阵
这是衡量分类问题性能的最简单方法,其中输出可以是两种或多种类型的类。混淆矩阵只不过是一个二维表,即。“实际”和“预测”,此外,这两个维度都有“真阳性(TP)”、“真阴性(TN)”、“假阳性(FP)”、“假阴性(FN)”,如下所示 -
与混淆矩阵相关的术语解释如下 -
真阳性 (TP) - 数据点的实际类别和预测类别均为 1 时的情况。
True Negatives (TN) - 数据点的实际类别和预测类别均为 0 时的情况。
误报 (FP) - 数据点的实际类别为 0 而数据点的预测类别为 1 时的情况。
假阴性 (FN) - 数据点的实际类别为 1 而数据点的预测类别为 0 时的情况。
我们可以使用sklearn.metrics的confusion_matrix函数来计算分类模型的混淆矩阵。
分类准确率
它是分类算法最常见的性能指标。它可以被定义为正确预测的数量与所有预测的比率。我们可以借助以下公式通过混淆矩阵轻松计算它 -
$$准确度=\frac{TP+TN}{