更改数据捕获

数据需要定期从源系统中抽取并将其转换到数据仓库。这个过程通常称为刷新数据仓库。最有效的刷新方法就是仅抽取和转换自上次抽取以来已更改的数据。

Cúram Business Intelligence and Analytics 基础结构中的更改数据捕获技术仅识别和处理数据库的每个表中已更改的数据,并使这些更改的数据对数据仓库可用。已对 Cúram Business Intelligence and Analytics 基础结构进行设计,以便刷新将在夜间进行。但是,执行起来是灵活的,它可以以不同的频率进行刷新。

更改数据捕获包括使用控制表,其存储了每个正被填充的表的最新写入日期。当 ETL 运行时,也更新了该表最新写入的字段。下次运行 ETL 时,它首先从该控制表中进行数据读取,然后抽取自前一次运行 ETL 以来已更新的数据。

值得注意的是:对于要工作的更改数据捕获,必须在商业智能基础结构可从其抽取数据的源表中填充所有最新写入的字段。如前所述,针对正被更新的表,ETL 控制表中行的更新要在每个 ETL 运行之前或之后进行。该工作使 ETL 调用预映射转换来读取前一个最新写入日期并设置抽取时间。ETL 运行后,调用后映射转换,这样就可将最新写入日期更新为当前日期。

在用数据将 ETL 控制表初步填充后,将最新写入日期重置为开始日期,以确保 ETL 抽取的是此日期后所有更新的数据。将该数据库中所有表的最新写入日期手动设置成 1934 年 1 月 1 日是可能的。