IM Centro de Informações do Relationship Resolution, Versão 4.2

Limpeza e Padronização de Nome

Durante o processamento de pipelines, os nomes são limpos e padronizados para preparar o registro de identidade para processamento de resolução da entidade apropriado.

Os processos de pipeline fornecem as informações de nomes mais precisas sobre entidades para utilização atual, futura e histórica. Conforme dados de nomes de identidades novos ou alterados são inseridos no sistema, eles são comparados com o dicionário de padronização de nomes de produtos, que contém uma lista de nomes raiz e seus derivados conhecidos, para identificar o nome raiz. Quando o nome raiz é identificado, o sistema mantém o nome raiz e o nome original para o registro de identidade de entrada.

Por exemplo, a tabela a seguir mostra dois exemplos de possíveis derivados do mesmo nome raiz, incluindo as várias maneiras de soletrar o nome. Os nomes à esquerda são todos derivados do nome raiz à direita.

Tabela 1. Exemplos de Alguns Possíveis Derivados para os Nomes Raiz de Richard e Mohammad
Derivados Raiz

Dick, Dickie, Ricardo

Rich, Richie, Rick

Rickey, Ricki, Rickie

Ricky, Rikki, Ritchie

Richard

Mohamad, Mohammad

Mohamed, Mohammed

Mohammad

O processo de limpeza e padronização de nome também corrige erros de ortografia, se necessário mas, novamente, o sistema mantém a ortografia original e todas as correções como parte do registro. A maioria dos outros sistemas (incluindo ETL e ferramentas de marketing do banco de dados) não fazem isso.

A limpeza e padronização de nomes são uma etapa importante para aumentar os níveis de confiança de resolução da entidade. Este processo é muito importante porque a pessoa média utiliza no máximo cinco versões diferentes de seu nome para fins oficiais e de consumidor.



Feedback

Última atualização: 2007