ETL 测试 – 简介


数据仓库系统中的数据通过 ETL(提取、转换、加载)工具加载。顾名思义,它执行以下三个操作 -

  • 从您的事务系统中提取数据,该系统可以是 Oracle、Microsoft 或任何其他关系数据库,

  • 通过执行数据清理操作来转换数据,然后

  • 将数据加载到 OLAP 数据仓库中。

您还可以使用 ETL 工具从电子表格和 CSV 文件等平面文件中提取数据,并将其加载到 OLAP 数据仓库中以进行数据分析和报告。让我们举个例子来更好地理解它。

例子

让我们假设有一家制造公司,有多个部门,如销售、人力资源、物料管理、EWM 等。所有这些部门都有单独的数据库,用于维护工作信息,每个数据库都有不同的技术、环境、表格现在,如果公司想要分析历史数据并生成报告,则应提取来自这些数据源的所有数据并将其加载到数据仓库中以保存以进行分析工作。

ETL 工具从所有这些异构数据源中提取数据,转换数据(例如应用计算、连接字段、键、删除不正确的数据字段等),并将其加载到数据仓库中。稍后,您可以使用各种商业智能 (BI) 工具使用此数据生成有意义的报告、仪表板和可视化效果。

ETL 和 BI 工具的区别

ETL工具用于从不同数据源提取数据,转换数据,并将其加载到DW系统中;然而,BI 工具用于为最终用户生成交互式和临时报告、为高级管理层生成仪表板、为每月、每季度和年度董事会会议生成数据可视化。

最常见的 ETL 工具包括 SAP BO Data Services (BODS)、Informatica – Power Center、Microsoft – SSIS、Oracle Data Integrator ODI、Talend Open Studio、Clover ETL Open source 等。

一些流行的 BI 工具包括 SAP Business Objects、SAP Lumira、IBM Cognos、JasperSoft、Microsoft BI Platform、Tableau、Oracle Business Intelligence Enterprise Edition 等。

ETL流程

现在让我们更详细地讨论 ETL 过程中涉及的关键步骤 -

提取数据

它涉及从不同的异构数据源提取数据。从事务系统中提取的数据根据​​需求和使用的 ETL 工具而有所不同。它通常是通过在非工作时间运行计划作业来完成的,例如在晚上或周末运行作业。

提取数据

转换数据

它涉及将数据转换为可以轻松加载到 DW 系统中的合适格式。数据转换涉及应用计算、联接以及定义数据的主键和外键。例如,如果您想要数据库中没有的总收入的百分比,您将在转换中应用百分比公式并加载数据。同样,如果用户的名字和姓氏位于不同的列中,则可以在加载数据之前应用连接操作。有些数据不需要任何转换;此类数据称为直接移动传递数据

数据转换还涉及数据校正和数据清理、删除不正确的数据、不完整的数据形成以及修复数据错误。它还包括数据完整性以及在将数据加载到 DW 系统之前格式化不兼容的数据。

将数据加载到 DW 系统中

它涉及将数据加载到 DW 系统中以进行分析报告和信息。目标系统可以是简单的分隔平面文件或数据仓库。

ETL工具功能

典型的基于 ETL 工具的数据仓库使用暂存区、数据集成和访问层来执行其功能。它通常是一个 3 层架构。

  • 临时层- 临时层或临时数据库用于存储从不同源数据系统提取的数据。

  • 数据集成层- 集成层转换来自暂存层的数据并将数据移动到数据库,在数据库中数据被排列成分层组(通常称为维度),并转换为事实聚合事实。DW 系统中事实表和维度表的组合称为模式

  • 访问层- 最终用户使用访问层检索数据以进行分析报告和信息。

下图显示了三层如何相互作用。

ETL工具功能