IM Centre de documentation de Relationship Resolution, Version 4.2

Vérification de la qualité des données

A mesure que les données parviennent au système en vue de leur traitement, le pipeline en vérifie la qualité afin de protéger l'intégrité de la base de données d'entités. Chaque fiche d'identité entrante est testée afin de vérifier si sa structure, ses valeurs obligatoires, ses types de données valides et ses codes de sources de données configurés sont corrects.

Tandis que le processus vérifie la qualité des donnée, il tente de remédier aux problèmes, dans la mesure du possible et si le système est configuré en ce sens. Pour déterminer s'il doit ou non remédier aux problèmes de qualité, le système applique les règles de gestion de la qualité des données (DQM) configurées. Les règles DQM définissent quelles anomalies des données des fiches d'identité entrantes sont acceptables pour correction par le système, et lesquelles il est acceptable de laisser telles quelles tout en traitant quand même les fiches.

Pour consulter la qualité des données d'une source de données particulière, vous pouvez afficher ou imprimer le rapport récapitulatif de chargement. La section récapitulative Qualité peut vous apporter de précieux éclairages sur la qualité globale des données d'une source particulière ou d'un ensemble de fiches d'identité chargées depuis cette même source. A l'aide de ces informations, vous pouvez ajuster votre processus ETL, au fil des besoins, selon une source de données précise.

La consignation et le traitement d'erreurs standard consignent toutes les erreurs de qualité et les corrections de données, ainsi que les erreurs que le système n'a pas ou n'a pu corriger. Consultez fréquemment les journaux système afin d'être tenu au courant des erreurs de qualité des données qui n'ont pas été corrigées par le traitement de pipeline. Dans la plupart des cas, vous devrez corriger ces erreurs, puis recharger les fiches d'identité corrigées dans un pipeline en vue du traitement de résolution d'entité.

Exemples de vérification de la qualité des données

Le système peut ajouter automatiquement les codes qui ne sont pas reconnus comme nouveaux codes, s'il est configuré à cet effet. Le journal UMF_EXCEPT affiche les résultats soit des nouveaux codes ajoutés par le système, soit des fiches rejetées et non traitées car le système n'a pas reconnu un code et n'était pas configuré pour l'ajouter comme nouveau.

Le tableau ci-dessous illustre deux exemples de codes de fiches entrantes qui n'étaient pas encore configurés dans le système.
Tableau 1. Exemples de deux codes non configurés dans le système et du résultat du traitement
Code Contrôle de qualité Journal UMF_EXCEPT
Addr_Type x Nouveau code ajouté écriture dans le journal
Num_Type xxx Nouveau code rejeté écriture dans le journal
  • Dans le premier exemple, le système est configuré pour ajouter automatiquement le nouveau code de type d'adresse.
  • Dans le second exemple, le système n'est configuré ni pour ajouter automatiquement le nouveau code, ni pour permettre de traiter la fiche en vue de la résolution d'entité.

Dans les deux cas, le système consigne l'action dans le fichier journal pertinent.



Appréciations en retour

Dernière mise à jour : 2007