威卡 - 简介
任何机器学习应用程序的基础都是数据——不仅仅是少量数据,而是大量数据,在当前术语中被称为大数据。
要训练机器分析大数据,您需要对数据有几个考虑因素 -
- 数据必须干净。
- 它不应包含空值。
此外,并非数据表中的所有列都对您想要实现的分析类型有用。在将数据输入机器学习算法之前,必须删除机器学习术语中的不相关数据列或“特征”。
简而言之,您的大数据需要进行大量预处理才能用于机器学习。数据准备好后,您将应用各种机器学习算法(例如分类、回归、聚类等)来解决最终的问题。
您应用的算法类型很大程度上取决于您的领域知识。即使在同一类型(例如分类)中,也有多种可用的算法。您可能想在同一类下测试不同的算法,以构建高效的机器学习模型。这样做时,您更喜欢对处理后的数据进行可视化,因此您还需要可视化工具。
在接下来的章节中,您将了解 Weka,这是一款可以轻松完成上述所有任务并让您轻松处理大数据的软件。