数据挖掘 - 术语
数据挖掘
数据挖掘被定义为从大量数据中提取信息。换句话说,我们可以说数据挖掘就是从数据中挖掘知识。此信息可用于以下任何应用程序 -
- 市场分析
- 欺诈识别
- 客户保留
- 产品控制
- 科学探索
数据挖掘引擎
数据挖掘引擎对于数据挖掘系统来说是非常重要的。它由一组执行以下功能的功能模块组成 -
- 表征
- 关联和相关分析
- 分类
- 预言
- 聚类分析
- 异常值分析
- 演化分析
知识库
这就是领域知识。这些知识用于指导搜索或评估结果模式的趣味性。
知识发现
有些人将数据挖掘视为知识发现,而另一些人则将数据挖掘视为知识发现过程中必不可少的一步。以下是知识发现过程中涉及的步骤列表 -
- 数据清理
- 数据整合
- 数据选择
- 数据转换
- 数据挖掘
- 模式评估
- 知识呈现
用户界面
用户界面是数据挖掘系统的模块,帮助用户和数据挖掘系统之间进行通信。用户界面允许以下功能 -
- 通过指定数据挖掘查询任务与系统交互。
- 提供信息以帮助集中搜索。
- 基于中间数据挖掘结果的挖掘。
- 浏览数据库和数据仓库模式或数据结构。
- 评估挖掘的模式。
- 以不同的形式可视化图案。
数据整合
数据集成是一种数据预处理技术,它将来自多个异构数据源的数据合并到一个连贯的数据存储中。数据集成可能会涉及到不一致的数据,因此需要进行数据清洗。
数据清理
数据清洗是一种用于去除噪声数据并纠正数据不一致的技术。数据清理涉及到纠正错误数据的转换。数据清理是在为数据仓库准备数据时作为数据预处理步骤执行的。
数据选择
数据选择是从数据库中检索与分析任务相关的数据的过程。有时,数据转换和合并是在数据选择过程之前执行的。
集群
簇是指一组相似类型的对象。聚类分析是指形成一组彼此非常相似但与其他聚类中的对象高度不同的对象。
数据转换
在此步骤中,通过执行汇总或聚合操作,将数据转换或合并为适合挖掘的形式。