数据仓库 - 流程管理器


流程管理者负责维护进出数据仓库的数据流。流程管理器分为三种不同类型 -

  • 负载管理器
  • 仓库经理
  • 查询管理器

数据仓库负载管理器

加载管理器执行提取数据并将其加载到数据库中所需的操作。负载管理器的大小和复杂性因不同数据仓库的特定解决方案而异。

负载管理器架构

负载管理器执行以下功能 -

  • 从源系统中提取数据。

  • 将提取的数据快速加载到临时数据存储中。

  • 对类似于数据仓库中结构的结构进行简单转换。

负载管理器

从源中提取数据

数据是从操作数据库或外部信息提供者中提取的。网关是用于提取数据的应用程序。它由底层 DBMS 支持,并允许客户端程序生成要在服务器上执行的 SQL。开放数据库连接 (ODBC) 和 Java 数据库连接 (JDBC) 是网关的示例。

快速加载

  • 为了最小化总加载窗口,数据需要在尽可能快的时间内加载到仓库中。

  • 转换会影响数据处理的速度。

  • 在应用转换和检查之前将数据加载到关系数据库中会更有效。

  • 网关技术不适合,因为当涉及大量数据时它们效率低下。

简单的转换

加载时,可能需要执行简单的转换。完成简单的转换后,我们可以进行复杂的检查。假设我们正在加载 EPOS 销售交易,我们需要执行以下检查 -

  • 删除仓库内所有不需要的列。
  • 将所有值转换为所需的数据类型。

仓库经理

仓库管理员负责仓库管理流程。它由第三方系统软件、C程序和shell脚本组成。仓库经理的规模和复杂性因特定解决方案而异。

仓库经理架构

仓库经理包括以下内容 -

  • 控制过程
  • 存储过程或 C 与 SQL
  • 备份/恢复工具
  • SQL脚本
仓库经理

仓库管理员的职能

仓库经理执行以下职能 -

  • 分析数据以执行一致性和引用完整性检查。

  • 针对基础数据创建索引、业务视图、分区视图。

  • 生成新的聚合并更新现有的聚合。

  • 生成标准化。

  • 将临时存储的源数据转换并合并到已发布的数据仓库中。

  • 备份数据仓库中的数据。

  • 对已达到捕获寿命终点的数据进行归档。

注意- 仓库管理员分析查询配置文件以确定索引和聚合是否合适。

查询管理器

查询管理器负责将查询定向到合适的表。通过将查询定向到适当的表,它可以加快查询请求和响应过程。此外,查询管理器还负责调度用户发布的查询的执行。

查询管理器架构

查询管理器包括以下组件 -

  • 通过 C 工具或 RDBMS 进行查询重定向
  • 存储过程
  • 查询管理工具
  • 通过 C 工具或 RDBMS 进行查询调度
  • 通过第三方软件进行查询调度
查询管理器

查询管理器的功能

  • 它将数据以用户理解的形式呈现给用户。

  • 它安排最终用户发布的查询的执行。

  • 它存储查询配置文件,以允许仓库经理确定哪些索引和聚合是合适的。