IM Centre de documentation de Relationship Resolution, Version 4.2

Standardisation et uniformisation de nom

Au cours du traitement par le pipeline, les noms sont nettoyés et standardisés afin de préparer la fiche d'identité en vue d'un traitement de résolution d'entité optimal.

Les processus du pipeline fournissent les informations de nom les plus précises sur les entités dans l'optique d'un usage actuel, futur et historique. A mesure que des données de nom d'identité nouvelles ou modifiées parviennent au système, elles sont comparées au dictionnaire de standardisation de noms de produit, qui renferme une liste de noms racines et de leurs dérivés connus, afin d'identifier le nom racine. Une fois le nom racine identifié, le système conserve à la fois le nom racine et le nom original pour la fiche d'identité entrante.

Le tableau suivant montre deux exemples de dérivés possibles du même nom racine, dont ses variantes orthographiques. Les noms de gauche sont tous des dérivés du nom racine de droite.

Tableau 1. Exemples de dérivés possibles des noms racines Richard et Mohammad
Dérivés Racine

Dick, Dickie, Ricardo

Rich, Richie, Rick

Rickey, Ricki, Rickie

Ricky, Rikki, Ritchie

Richard

Mohamad, Mohammad

Mohamed, Mohammed

Mohammad

Au besoin, le processus de standardisation et uniformisation de nom corrige en outre toute faute d'orthographe, mais, là encore, en conservant comme renseignements de la fiche à la fois l'orthographe originale et toute correction éventuelle. La plupart des autres systèmes (dont l'ETL et les outil marketing de base de données) ne le font pas.

La standardisation et uniformisation de nom constitue une étape importante pour accroître les niveaux de fiabilité de la résolution d'entité. Ce processus est particulièrement important sachant que l'individu moyen emploie pas moins de cinq variantes de son nom, à des fins administratives et personnelles.



Appréciations en retour

Dernière mise à jour : 2007