Durante o processamento de pipelines, os nomes são limpos e padronizados para preparar o registro de identidade para processamento de resolução da entidade apropriado.
Os processos de pipeline fornecem as informações de nomes mais precisas sobre entidades para utilização atual, futura e histórica. Conforme dados de nomes de identidades novos ou alterados são inseridos no sistema, eles são comparados com o dicionário de padronização de nomes de produtos, que contém uma lista de nomes raiz e seus derivados conhecidos, para identificar o nome raiz. Quando o nome raiz é identificado, o sistema mantém o nome raiz e o nome original para o registro de identidade de entrada.
Por exemplo, a tabela a seguir mostra dois exemplos de possíveis derivados do mesmo nome raiz, incluindo as várias maneiras de soletrar o nome. Os nomes à esquerda são todos derivados do nome raiz à direita.
Derivados | Raiz |
---|---|
Dick, Dickie, Ricardo Rich, Richie, Rick Rickey, Ricki, Rickie Ricky, Rikki, Ritchie |
Richard |
Mohamad, Mohammad Mohamed, Mohammed |
Mohammad |
O processo de limpeza e padronização de nome também corrige erros de ortografia, se necessário mas, novamente, o sistema mantém a ortografia original e todas as correções como parte do registro. A maioria dos outros sistemas (incluindo ETL e ferramentas de marketing do banco de dados) não fazem isso.
A limpeza e padronização de nomes são uma etapa importante para aumentar os níveis de confiança de resolução da entidade. Este processo é muito importante porque a pessoa média utiliza no máximo cinco versões diferentes de seu nome para fins oficiais e de consumidor.