数据仓库 - 流程管理器
流程管理者负责维护进出数据仓库的数据流。流程管理器分为三种不同类型 -
- 负载管理器
- 仓库经理
- 查询管理器
数据仓库负载管理器
加载管理器执行提取数据并将其加载到数据库中所需的操作。负载管理器的大小和复杂性因不同数据仓库的特定解决方案而异。
负载管理器架构
负载管理器执行以下功能 -
从源系统中提取数据。
将提取的数据快速加载到临时数据存储中。
对类似于数据仓库中结构的结构进行简单转换。
从源中提取数据
数据是从操作数据库或外部信息提供者中提取的。网关是用于提取数据的应用程序。它由底层 DBMS 支持,并允许客户端程序生成要在服务器上执行的 SQL。开放数据库连接 (ODBC) 和 Java 数据库连接 (JDBC) 是网关的示例。
快速加载
为了最小化总加载窗口,数据需要在尽可能快的时间内加载到仓库中。
转换会影响数据处理的速度。
在应用转换和检查之前将数据加载到关系数据库中会更有效。
网关技术不适合,因为当涉及大量数据时它们效率低下。
简单的转换
加载时,可能需要执行简单的转换。完成简单的转换后,我们可以进行复杂的检查。假设我们正在加载 EPOS 销售交易,我们需要执行以下检查 -
- 删除仓库内所有不需要的列。
- 将所有值转换为所需的数据类型。
仓库经理
仓库管理员负责仓库管理流程。它由第三方系统软件、C程序和shell脚本组成。仓库经理的规模和复杂性因特定解决方案而异。
仓库经理架构
仓库经理包括以下内容 -
- 控制过程
- 存储过程或 C 与 SQL
- 备份/恢复工具
- SQL脚本
仓库管理员的职能
仓库经理执行以下职能 -
分析数据以执行一致性和引用完整性检查。
针对基础数据创建索引、业务视图、分区视图。
生成新的聚合并更新现有的聚合。
生成标准化。
将临时存储的源数据转换并合并到已发布的数据仓库中。
备份数据仓库中的数据。
对已达到捕获寿命终点的数据进行归档。
注意- 仓库管理员分析查询配置文件以确定索引和聚合是否合适。
查询管理器
查询管理器负责将查询定向到合适的表。通过将查询定向到适当的表,它可以加快查询请求和响应过程。此外,查询管理器还负责调度用户发布的查询的执行。
查询管理器架构
查询管理器包括以下组件 -
- 通过 C 工具或 RDBMS 进行查询重定向
- 存储过程
- 查询管理工具
- 通过 C 工具或 RDBMS 进行查询调度
- 通过第三方软件进行查询调度
查询管理器的功能
它将数据以用户理解的形式呈现给用户。
它安排最终用户发布的查询的执行。
它存储查询配置文件,以允许仓库经理确定哪些索引和聚合是合适的。