Hadoop - 大数据解决方案
传统方法
在这种方法中,企业将拥有一台计算机来存储和处理大数据。为了存储目的,程序员将借助他们选择的数据库供应商,例如Oracle、IBM等。在这种方法中,用户与应用程序交互,应用程序依次处理数据存储和分析部分。
局限性
这种方法适用于那些处理较少数据量的应用程序,这些数据可以由标准数据库服务器容纳,或者达到处理数据的处理器的限制。但当涉及到处理大量可扩展的数据时,通过单个数据库瓶颈处理这些数据是一项艰巨的任务。
谷歌的解决方案
Google 使用一种名为 MapReduce 的算法解决了这个问题。该算法将任务分成小部分,并将它们分配给许多计算机,并收集它们的结果,整合后形成结果数据集。
Hadoop
使用 Google 提供的解决方案,Doug Cutting和他的团队开发了一个名为HADOOP的开源项目。
Hadoop 使用 MapReduce 算法运行应用程序,其中数据与其他数据并行处理。简而言之,Hadoop用于开发可以对海量数据进行完整统计分析的应用程序。