敏捷数据科学 - SparkML
机器学习库也称为“SparkML”或“MLLib”,由常见的学习算法组成,包括分类、回归、聚类和协同过滤。
为什么要学习 SparkML 来实现敏捷?
Spark 正在成为构建机器学习算法和应用程序的事实上的平台。Spark 开发人员致力于在 Spark 框架中以可扩展且简洁的方式实现机器算法。我们将通过这个框架学习机器学习的概念、实用程序和算法。敏捷总是选择一个框架,它可以提供简短而快速的结果。
机器学习算法
机器学习算法包括分类、回归、聚类和协同过滤等常见学习算法。
特征
它包括特征提取、变换、降维和选择。
管道
Pipelines 提供了用于构建、评估和调整机器学习管道的工具。
流行算法
以下是一些流行的算法 -
基础统计
回归
分类
推荐系统
聚类
降维
特征提取
优化
推荐系统
推荐系统是信息过滤系统的子类,它寻求用户对给定项目建议的“评级”和“偏好”的预测。
推荐系统包括各种过滤系统,其使用如下 -
协同过滤
它包括根据过去的Behave以及其他用户做出的类似决策构建模型。这种特定的过滤模型用于预测用户感兴趣的项目。
基于内容的过滤
它包括过滤项目的离散特征,以便推荐和添加具有相似属性的新项目。
在后续章节中,我们将重点讨论使用推荐系统解决特定问题并从敏捷方法论的角度提高预测性能。