数据仓库 - 术语


在本章中,我们将讨论数据仓库中一些最常用的术语。

元数据

元数据简单地定义为关于数据的数据。用于表示其他数据的数据称为元数据。例如,一本书的索引充当书中内容的元数据。换句话说,我们可以说元数据是引导我们获得详细数据的汇总数据。

在数据仓库方面,我们可以定义元数据如下 -

  • 元数据是数据仓库的路线图。

  • 数据仓库中的元数据定义了仓库对象。

  • 元数据充当目录。该目录帮助决策支持系统定位数据仓库的内容。

元数据存储库

元数据存储库是数据仓库系统的组成部分。它包含以下元数据 -

  • 业务元数据- 它包含数据所有权信息、业务定义和更改策略。

  • 操作元数据- 它包括数据流通和数据沿袭。数据的流通性是指处于活动、存档或清除状态的数据。数据沿袭是指数据迁移和应用转换的历史记录。

  • 用于从操作环境映射到数据仓库的数据- 它元数据包括源数据库及其内容、数据提取、数据分区、清理、转换规则、数据刷新和清除规则。

  • 汇总算法- 包括维度算法、粒度数据、聚合、汇总等。

数据立方体

数据立方体帮助我们以多个维度表示数据。它是由维度和事实定义的。维度是企业保存记录的实体。

数据立方体图示

假设一家公司希望借助销售数据仓库来跟踪有关时间、项目、分支机构和位置的销售记录。这些维度允许跟踪每月销售额以及在哪个分店销售商品。每个维度都有一个关联的表。该表称为维度表。例如,“item”维度表可以具有诸如item_name、item_type和item_brand之类的属性。

下表显示了公司销售数据在时间、项目和位置维度方面的二维视图。

二维数据立方体

但在这个二维表中,我们仅记录了时间和项目。新德里的销售额按照时间和商品尺寸(根据所售商品类型)显示。如果我们想要以多一个维度(例如位置维度)查看销售数据,那么 3D 视图将会很有用。下表显示了有关时间、商品和地点的销售数据的 3D 视图 -

数据立方体 3D

上面的 3-D 表可以表示为 3-D 数据立方体,如下图所示 -

数据立方体 3D

数据库

数据集市包含对组织中的特定人员群体有价值的组织范围数据的子集。换句话说,数据集市仅包含特定于特定组的数据。例如,营销数据集市可能仅包含与商品、客户和销售相关的数据。数据集市仅限于主题。

关于数据集市需要记住的要点

  • 基于Windows或基于Unix/Linux的服务器用于实现数据集市。它们是在低成本服务器上实现的。

  • 数据集市的实施周期是在短时间内衡量的,即以周而不是数月或数年为单位。

  • 如果数据集市的规划和设计不是在整个组织范围内进行,那么从长远来看,数据集市的生命周期可能会很复杂。

  • 数据集市规模较小。

  • 数据集市是按部门定制的。

  • 数据集市的来源是按部门结构化的数据仓库。

  • 数据集市是灵活的。

下图显示了数据集市的图形表示。

数据库

虚拟仓库

操作数据仓库的视图称为虚拟仓库。建立虚拟仓库很容易。构建虚拟仓库需要运营数据库服务器上有多余的容量。