HCatalog - 简介


什么是 HCatalog?

HCatalog是Hadoop的表存储管理工具。它将 Hive 元存储的表格数据公开给其他 Hadoop 应用程序。它使用户能够使用不同的数据处理工具(Pig、MapReduce)轻松地将数据写入网格。它确保用户不必担心数据存储在何处或以什么格式存储。

HCatalog 的工作方式类似于 Hive 的关键组件,它使用户能够以任何格式和任何结构存储数据。

为什么选择 HCatalog?

为正确的工作启用正确的工具

Hadoop 生态系统包含不同的数据处理工具,例如 Hive、Pig 和 MapReduce。尽管这些工具不需要元数据,但当元数据存在时,它们仍然可以从中受益。共享元数据存储还使用户能够跨工具更轻松地共享数据。使用 MapReduce 或 Pig 加载和规范化数据,然后通过 Hive 进行分析的工作流程非常常见。如果所有这些工具共享一个元存储,则每个工具的用户都可以立即访问使用另一工具创建的数据。无需加载或转移步骤。

捕获处理状态以实现共享

HCatalog 可以发布您的分析结果。因此其他程序员可以通过“REST”访问您的分析平台。您发布的模式对于其他数据科学家也很有用。其他数据科学家将您的发现用作后续发现的输入。

将 Hadoop 与一切集成

Hadoop 作为处理和存储环境为企业带来了很多机会;然而,为了推动采用,它必须与现有工具配合使用并增强现有工具。Hadoop 应该作为您的分析平台的输入,或者与您的运营数据存储和 Web 应用程序集成。组织应该享受 Hadoop 的价值,而无需学习全新的工具集。REST 服务通过熟悉的 API 和类似 SQL 的语言向企业开放平台。企业数据管理系统使用HCatalog与Hadoop平台更深入地集成。

HCatalog架构

下图展示了HCatalog的整体架构。

建筑学

HCatalog 支持读取和写入可编写SerDe (串行器-解串器)的任何格式的文件。默认情况下,HCatalog 支持 RCFile、CSV、JSON、SequenceFile 和 ORC 文件格式。要使用自定义格式,您必须提供InputFormat、OutputFormat 和SerDe。

HCatalog 构建在 Hive 元存储之上,并合并了 Hive 的 DDL。HCatalog 为 Pig 和 MapReduce 提供读写接口,并使用 Hive 的命令行接口来发出数据定义和元数据探索命令。