ETL测试——数据完整性


检查数据完整性是为了验证加载后目标系统中的数据是否符合预期。

可以为此执行的常见测试如下 -

  • 检查聚合函数(总和、最大值、最小值、计数),

  • 检查和验证未经过转换或经过简单转换的列的源和目标之间的计数和实际数据。

计数验证

比较源表和目标表中的记录数。可以通过编写以下查询来完成 -

SELECT count (1) FROM employee; 
SELECT count (1) FROM emp_dim; 

数据配置文件验证

它涉及检查源表和目标表(事实或维度)中的聚合函数,例如计数、总和和最大值。

列数据配置文件验证

它涉及比较不同值和每个不同值的行数。

SELECT city, count(*) FROM employee GROUP BY city; 
SELECT city_id, count(*) FROM emp_dim GROUP BY city_id;

重复数据验证

它涉及验证列或列组合中的主键和唯一键,这些列或列组合应根据业务要求是唯一的。您可以使用以下查询来执行重复数据验证 -

SELECT first_name, last_name, date_of_joining, count (1) FROM employee
GROUP BY first_name, last_name HAVING count(1)>1;