数据挖掘 - 分类和预测

有两种形式的数据分析可用于提取描述重要类别的模型或预测未来的数据趋势。这两种形式如下 -

分类模型预测分类类别标签；预测模型预测连续值函数。例如，我们可以构建一个分类模型，将银行贷款申请分类为安全或有风险，或者构建一个预测模型，根据潜在客户的收入和职业，预测其在计算机设备上的支出（以美元为单位）。

什么是分类？

以下是数据分析任务是分类的情况示例 -

在上述两个示例中，构建模型或分类器来预测分类标签。这些标签对于贷款申请数据是有风险还是安全，对于营销数据是是或否。

以下是数据分析任务是预测的情况示例 -

假设营销经理需要预测特定客户在其公司的促销活动中将花费多少钱。在这个例子中，我们费心去预测一个数值。因此，数据分析任务是数值预测的一个例子。在这种情况下，将构建一个模型或预测器来预测连续值函数或有序值。

注- 回归分析是一种最常用于数值预测的统计方法。

借助我们上面讨论的银行贷款申请，让我们了解分类的工作原理。数据分类过程包括两个步骤 -

本步骤中使用分类器进行分类。这里测试数据用于估计分类规则的准确性。如果认为准确性可以接受，则可以将分类规则应用于新的数据元组。

主要问题是为分类和预测准备数据。准备数据涉及以下活动 -

数据清理- 数据清理涉及消除噪音和处理缺失值。通过应用平滑技术消除噪声，并通过用该属性最常出现的值替换缺失值来解决缺失值的问题。
相关性分析- 数据库也可能具有不相关的属性。相关性分析用于了解任意两个给定属性是否相关。
数据转换和缩减- 数据可以通过以下任何方法进行转换。
- 标准化- 使用标准化来转换数据。标准化涉及缩放给定属性的所有值，以使它们落入较小的指定范围内。当在学习步骤中使用神经网络或涉及测量的方法时，使用归一化。
- 泛化- 数据也可以通过将其泛化为更高的概念来进行转换。为此，我们可以使用概念层次结构。

注- 数据还可以通过其他一些方法来减少，例如小波变换、分箱、直方图分析和聚类。

这是比较分类和预测方法的标准 -