数据挖掘 - 问题
数据挖掘并不是一项容易的任务,因为所使用的算法可能变得非常复杂,并且数据并不总是在一个地方可用。它需要从各种异构数据源进行集成。这些因素也会产生一些问题。在本教程中,我们将讨论以下主要问题 -
- 挖掘方法和用户交互
- 性能问题
- 多样化的数据类型问题
下图描述了主要问题。
挖掘方法和用户交互问题
它指的是以下类型的问题 -
在数据库中挖掘不同类型的知识- 不同的用户可能对不同类型的知识感兴趣。因此,数据挖掘有必要涵盖广泛的知识发现任务。
多个抽象级别的知识的交互式挖掘- 数据挖掘过程需要是交互式的,因为它允许用户集中搜索模式,根据返回的结果提供和细化数据挖掘请求。
背景知识的结合- 为了指导发现过程并表达发现的模式,可以使用背景知识。背景知识不仅可以用简洁的术语而且可以在多个抽象层次上来表达所发现的模式。
数据挖掘查询语言和即席数据挖掘- 数据挖掘查询语言允许用户描述即席挖掘任务,应与数据仓库查询语言集成并针对高效灵活的数据挖掘进行优化。
数据挖掘结果的呈现和可视化- 一旦发现模式,就需要用高级语言和视觉表示来表达。这些表示应该很容易理解。
处理噪声或不完整的数据- 在挖掘数据规律的同时,需要数据清理方法来处理噪声和不完整的对象。如果不存在数据清理方法,那么所发现的模式的准确性将会很差。
模式评估- 发现的模式应该很有趣,因为它们要么代表常识,要么缺乏新颖性。
性能问题
可能存在与性能相关的问题,如下所示 -
数据挖掘算法的效率和可扩展性- 为了有效地从数据库中的大量数据中提取信息,数据挖掘算法必须高效且可扩展。
并行、分布式和增量挖掘算法- 数据库规模庞大、数据分布广泛以及数据挖掘方法的复杂性等因素推动了并行和分布式数据挖掘算法的发展。这些算法将数据划分为多个分区,并以并行方式进一步处理。然后合并分区的结果。增量算法,更新数据库而无需从头开始再次挖掘数据。
多样化的数据类型问题
处理关系型和复杂类型的数据- 数据库可能包含复杂的数据对象、多媒体数据对象、空间数据、时间数据等。一个系统不可能挖掘所有这些类型的数据。
从异构数据库和全球信息系统中挖掘信息- 数据可在 LAN 或 WAN 上的不同数据源中获得。这些数据源可以是结构化的、半结构化的或非结构化的。因此,从他们身上挖掘知识给数据挖掘带来了挑战。