H2O - 简介


您是否曾被要求在巨大的数据库上开发机器学习模型?通常,客户会向您提供数据库并要求您做出某些预测,例如谁将是潜在买家;是否可以及早发现欺诈案件等。要回答这些问题,您的任务是开发一种机器学习算法,为客户的查询提供答案。从头开始开发机器学习算法并不是一件容易的事,当市场上有几个现成的机器学习库可用时,为什么要这样做呢?

如今,您更愿意使用这些库,应用这些库中经过充分测试的算法并查看其性能。如果性能不在可接受的范围内,您将尝试微调当前算法或尝试完全不同的算法。

同样,您可以在同一数据集上尝试多种算法,然后选择最能满足客户要求的算法。这就是 H2O 来拯救你的地方。它是一个开源机器学习框架,对多种广泛接受的机器学习算法进行了全面测试的实现。您只需从其庞大的存储库中获取算法并将其应用到您的数据集即可。它包含最广泛使用的统计和机器学习算法。

这里仅举几例,其中包括梯度增强机 (GBM)、广义线性模型 (GLM)、深度学习等等。不仅如此,它还支持 AutoML 功能,可以对数据集上不同算法的性能进行排名,从而减少寻找最佳性能模型的工作量。H2O 在全球范围内被超过 18000 个组织使用,并且与 R 和 Python 很好地接口,以便于您的开发。它是一个提供卓越性能的内存平台。

在本教程中,您将首先学习使用 Python 和 R 选项在计算机上安装 H2O。我们将了解如何在命令行中使用它,以便您了解其按行工作。如果您是 Python 爱好者,您可以使用 Jupyter 或您选择的任何其他 IDE 来开发 H2O 应用程序。如果您更喜欢 R,您可以使用 RStudio 进行开发。

在本教程中,我们将通过一个示例来了解如何使用 H2O。我们还将学习如何更改程序代码中的算法,并将其性能与之前的算法进行比较。H2O 还提供了一个基于网络的工具来测试数据集上的不同算法。这就是所谓的“流”。

本教程将向您介绍 Flow 的使用。此外,我们还将讨论 AutoML 的使用,它可以识别数据集上性能最佳的算法。您对学习 H2O 不感兴趣吗?继续阅读!