Pipelines são os componentes que executam padronização de limpeza de nome e endereço, gerenciamento de qualidade de dados e resolução de entidade. Os pipelines também desempenham resolução de relacionamento e geram alertas com base na configuração do sistema.
Pipelines desempenham três processos principais:
- Reconhecimento, o que envolve otimização de dados de entrada pela execução de padronização de dados, limpeza, aprimoramento e verificações de qualidade
- Resolução, o que envolve resolução de entidades
- Relacionamento, o que envolve a detecção de relacionamentos e a geração de alertas
Os pipelines são hospedados por nós pipeline.
É possível configurar pipelines para processamento paralelo, assim um comando pipeline gera múltiplos encadeamentos de processamento pipeline paralelos, o que permite ao sistema processar simultaneamente múltiplos pedidos de dados. Este recurso pode ajudar a aumentar o desempenho do sistema, reduzir o tempo de processamentos dos dados e eliminar os limites de memória de hardware.
O recurso de processamento paralelo é configurado em dois lugares:
- A configuração de simultaneidade global é controlada pelo parâmetro de sistema DEFAULT_CONCURRENCY na guia Parâmetros de Sistema no Console de Configuração. O valor aqui determina o número de encadeamentos de processamento paralelos iniciados a partir de um comando de início de pipeline. O valor para o parâmetro de sistema DEFAULT_CONCURRENCY é 1 significando que, a menos que este parâmetro seja editado, somente um encadeamento de processamento de pipeline é iniciado.
- Uma configuração de simultaneidade local (por nó pipeline) pode ser configurada no arquivo de configuração de pipeline. Se você especificar um parâmetro de simultaneidade e um valor no arquivo de configuração de pipeline por nó pipeline, este valor irá sobrepor o parâmetro de sistema global. Quando um comando de início de pipeline é iniciado naquele nó pipeline, o mesmo número de encadeamentos de processamento de pipeline simultâneos é iniciado conforme especificado no arquivo de configuração de pipeline.