Hadoop - 大数据解决方案


传统方法

在这种方法中,企业将拥有一台计算机来存储和处理大数据。为了存储目的,程序员将借助他们选择的数据库供应商,例如Oracle、IBM等。在这种方法中,用户与应用程序交互,应用程序依次处理数据存储和分析部分。

大数据传统方法

局限性

这种方法适用于那些处理较少数据量的应用程序,这些数据可以由标准数据库服务器容纳,或者达到处理数据的处理器的限制。但当涉及到处理大量可扩展的数据时,通过单个数据库瓶颈处理这些数据是一项艰巨的任务。

谷歌的解决方案

Google 使用一种名为 MapReduce 的算法解决了这个问题。该算法将任务分成小部分,并将它们分配给许多计算机,并收集它们的结果,整合后形成结果数据集。

谷歌地图缩减

Hadoop

使用 Google 提供的解决方案,Doug Cutting和他的团队开发了一个名为HADOOP的开源项目。

Hadoop 使用 MapReduce 算法运行应用程序,其中数据与其他数据并行处理。简而言之,Hadoop用于开发可以对海量数据进行完整统计分析的应用程序。

Hadoop框架