IM Centro de información de Relationship Resolution, Versión 4.2

Higiene y estandarización de nombres

Durante el proceso de interconexiones, los nombres se limpian y estandarizan para preparar el registro de identidades para un proceso óptimo de resolución de entidades.

El proceso de interconexiones ofrece la información de nombres más precisa sobre entidades para su uso actual, futuro e histórico. A medida que entran en el sistema datos de nombres de identidades nuevos o modificados, se comparan con el diccionario de estandarización de nombres del producto, que contiene una lista de nombres raíz y sus derivados conocidos, a fin de identificar el nombre raíz. Cuando se identifica el nombre raíz, el sistema mantiene tanto el nombre raíz como el nombre original para el registro de identidades de entrada.

Por ejemplo, la tabla siguiente muestra dos ejemplos de posibles derivados del mismo nombre raíz, incluidos los distintos modos de escribir el nombre. Los nombres de la izquierda son derivados del nombre raíz de la derecha.

Tabla 1. Ejemplos de algunos posibles derivados de los nombres raíz Richard y Mohammad
Derivados Raíz

Dick, Dickie, Ricardo

Rich, Richie, Rick

Rickey, Ricki, Rickie

Ricky, Rikki, Ritchie

Richard

Mohamad, Mohammad

Mohamed, Mohammed

Mohammad

El proceso de higiene y estandarización de nombres también corrige los errores ortográficos, si es necesario, pero de nuevo el sistema conserva tanto el original como la corrección como parte del registro. La mayoría de los otros sistemas (incluidas las herramientas ETL y de marketing de bases de datos) no lo hacen.

La higiene y la estandarización de nombres constituyen un paso importante para aumentar el nivel de fiabilidad de la resolución de entidades. Este proceso resulta especialmente importante las personas utilizan como media cinco versiones de su nombre con fines oficiales y de consumo.



Comentarios

Última actualización: 2007