Captura de datos de cambio

Periódicamente se deben extraer datos de los sistemas de origen y transformarlos al almacén de datos. Este proceso se conoce comúnmente como renovación del almacén de datos. El método de renovación más eficaz consiste en extraer y transformar sólo los datos que han cambiado desde la última extracción.

La técnica de captura de datos de cambio de la infraestructura de Cúram Business Intelligence and Analytics identifica y procesa sólo los datos que han cambiado en cada una de las tablas de una base de datos y pone los datos cambiados a disposición del almacén de datos. La infraestructura de Cúram Business Intelligence and Analytics se ha diseñado con la intención de que la renovación se lleve a cabo por la noche. No obstante, la implementación es flexible y es posible ejecutar la renovación a una frecuencia distinta.

La captura de datos de cambio incluye el uso de una tabla de control que almacena una fecha de última escritura para cada tabla que se está llenando. Cuando se ejecuta una ETL, el último campo que se ha escrito para dicha tabla también se actualiza. La siguiente vez que se ejecuta la ETL, primero lee de esta tabla de control y luego extrae los datos que se han actualizado desde la anterior ejecución de ETL.

Es importante tener en cuenta que para que la captura de datos de cambio funcione, todos los últimos campos escritos deben llenarse en las tablas de origen de las que la infraestructura de Business Intelligence extrae datos. Como ya se ha dicho, una fila de la tabla de control de ETL se actualiza antes y después de cada ejecución de ETL para la tabla que se está actualizando. Esto funciona haciendo que las ETL llamen a una transformación previa a la correlación para leer la fecha de la última escritura y establecer la hora de la extracción. Después de la ejecución de la ETL, se llama a una transformación posterior a la correlación que actualiza la fecha de la última escritura con la fecha actual.

Después de que la tabla de control de ETL se haya llenado inicialmente con datos, la fecha de la última escritura se restablece en una fecha inicial para garantizar que las ETL extraigan todos los datos actualizados después de esta fecha. Es posible establecer manualmente la fecha de última escritura para todas las tablas de la base de datos al 1 de enero de 1934.