Pipelines são o componente que desempenha a padronização de limpeza de nome e
endereço, data quality management e resolução da entidade. Os pipelines
também desempenham resolução de relacionamento e geram alertas, com base na configuração do sistema.
Os pipelines desempenham três processos principais:
- Reconhecer, que envolve a otimização de dados de entrada, desempenhando
padronização, limpeza, aprimoramento e verificações de qualidade de dados
- Resolver, que envolve a resolução de entidades
- Relacionar, que envolve a detecção de relacionamentos e geração de alertas
Os pipelines são hospedados por nós de pipeline.
Você pode configurar pipelines para processamento paralelo, para que um comando de pipeline
gere vários encadeamentos de processamentos de pipelines paralelos, que permite
que o sistema processe simultaneamente vários pedidos de dados. Este recurso pode ajudar
a aprimorar o desempenho do sistema, reduzir o tempo de processamento de dados e reduzir
restrições de memória de hardware.
O recurso de processamento de pipelines paralelo é configurado em dois locais:
- A configuração de simultaneidade global é controlada pelo parâmetro do sistema DEFAULT_CONCURRENCY
na guia Parâmetros do Sistema no Console de Configuração.
O valor aqui determina o número de encadeamentos de processamentos paralelos iniciados
a partir de um comando de início de pipeline. O valor para o parâmetro do sistema DEFAULT_CONCURRENCY
é 1, significando que, a menos que este parâmetro seja editado, apenas um
encadeamento de processamentos de pipelines será iniciado.
- É possível definir uma configuração de simultaneidade local (por nó de pipeline)
no arquivo de configuração de pipeline. Se você especificar um parâmetro e valor de simultaneidade
no arquivo de configuração de pipeline por nó de pipeline, esse valor substituirá
o parâmetro do sistema global. Ao emitir o comando de início de pipeline nesse nó de
pipeline, você inicia o mesmo número de encadeamentos de processamentos de pipelines simultâneos,
conforme especificado no arquivo de configuração de pipeline.