数据挖掘 - 任务
数据挖掘涉及可以挖掘的模式类型。根据要挖掘的数据类型,数据挖掘涉及两类功能 -
- 描述性的
- 分类与预测
描述函数
描述性函数处理数据库中数据的一般属性。这是描述性函数的列表 -
- 类/概念描述
- 频繁模式挖掘
- 关联挖掘
- 相关性挖掘
- 集群挖矿
类/概念描述
类/概念是指与类或概念相关联的数据。例如,在一家公司中,销售的商品类别包括计算机和打印机,客户的概念包括大额支出者和预算支出者。这种对类或概念的描述称为类/概念描述。这些描述可以通过以下两种方式得出 -
数据表征- 这是指总结所研究班级的数据。正在学习的这个班级称为目标班级。
数据歧视- 它是指类与某些预定义的组或类的映射或分类。
频繁模式挖掘
频繁模式是那些在事务数据中频繁出现的模式。这是常见模式的列表 -
频繁项目集- 它是指经常一起出现的一组项目,例如牛奶和面包。
频繁子序列- 频繁出现的模式序列,例如购买相机,后面跟着存储卡。
频繁子结构- 子结构是指不同的结构形式,例如图、树或格,它们可以与项目集或子序列组合。
协会挖矿
关联在零售销售中用于识别经常一起购买的模式。这个过程是指揭示数据之间的关系并确定关联规则的过程。
例如,零售商生成一条关联规则,显示 70% 的时间牛奶与面包一起销售,而只有 30% 的时间cookie与面包一起销售。
相关性挖掘
它是一种附加分析,旨在揭示关联属性值对之间或两个项目集之间有趣的统计相关性,以分析它们是否对彼此有积极、消极或没有影响。
集群挖矿
簇是指一组相似类型的对象。聚类分析是指形成一组彼此非常相似但与其他聚类中的对象高度不同的对象。
分类与预测
分类是寻找描述数据类或概念的模型的过程。目的是能够使用该模型来预测类别标签未知的对象的类别。该派生模型基于对训练数据集的分析。导出的模型可以以以下形式呈现 -
- 分类 (IF-THEN) 规则
- 决策树
- 数学公式
- 神经网络
这些过程涉及的功能列表如下 -
分类- 它预测类标签未知的对象的类。其目标是找到一个描述和区分数据类或概念的派生模型。派生模型基于训练数据的分析集,即类标签众所周知的数据对象。
预测- 它用于预测丢失或不可用的数值数据值而不是类标签。回归分析通常用于预测。预测还可用于根据可用数据识别分布趋势。
异常值分析- 异常值可以定义为不符合可用数据的一般Behave或模型的数据对象。
演化分析- 演化分析是指Behave随时间变化的对象的描述和模型规律或趋势。
数据挖掘任务原语
- 我们可以以数据挖掘查询的形式指定数据挖掘任务。
- 该查询被输入到系统中。
- 数据挖掘查询是根据数据挖掘任务原语定义的。
注意- 这些原语允许我们以交互方式与数据挖掘系统进行通信。这是数据挖掘任务原语的列表 -
- 要挖掘的任务相关数据集。
- 需要挖掘的知识类型。
- 发现过程中使用的背景知识。
- 模式评估的兴趣度度量和阈值。
- 用于可视化发现的模式的表示。
要挖掘的任务相关数据集
这是用户感兴趣的数据库部分。这部分包括以下内容 -
- 数据库属性
- 感兴趣的数据仓库维度
需要挖掘的知识类型
它指的是要执行的功能类型。这些功能是 -
- 表征
- 歧视
- 关联和相关分析
- 分类
- 预言
- 聚类
- 异常值分析
- 演化分析
背景知识
背景知识允许在多个抽象级别上挖掘数据。例如,概念层次结构是允许在多个抽象级别挖掘数据的背景知识之一。
模式评估的兴趣度度量和阈值
这用于评估知识发现过程中发现的模式。对于不同类型的知识有不同的有趣的衡量标准。
用于可视化发现的模式的表示
这是指发现的模式的显示形式。这些表示可能包括以下内容。-
- 规则
- 表格
- 图表
- 图表
- 决策树
- 立方体