Les pipelines constituent le composant qui permet de procéder à la standardisation du nettoyage de noms et d'adresses, à la gestion de la qualité des données ainsi qu'à la résolution des entités. Ils réalisent également
la résolution des relations et génèrent des alertes en fonction de la configuration du système.
Les pipelines exécutent trois processus de base :
- Reconnaissance - impliquant l'optimisation des données entrantes via la vérification
de la standardisation, du nettoyage, de l'amélioration et de la qualité
- Résolution - impliquant la résolution d'entités
- Lien - impliquant la détection de relations et la génération d'alertes
Les pipelines sont hébergés par des noeuds.
Vous pouvez configurer les pipelines pour un traitement en parallèle, de façon à ce qu'une commande pipeline
génère plusieurs unités d'exécution en parallèle des pipelines, ce qui permet au système
de traiter simultanément plusieurs requêtes de données. Cette fonctionnalité permet d'améliorer les
performances du système, de réduire le temps de traitement des données et de limiter les contraintes
de mémoire liées au matériel.
La configuration de la fonctionnalité de traitement en parallèle des pipelines s'effectue à deux endroits différents :
- Le paramètre d'accès concurrent global est contrôlé par le paramètre système DEFAULT_CONCURRENCY, dans l'onglet Paramètres système de la console de configuration. La valeur indiquée ici définit le nombre d'unités d'exécution en parallèle
qui sont démarrées à partir de la commande de démarrage d'un pipeline. La valeur du paramètre système DEFAULT_CONCURRENCY est 1, ce qui signifie que, sauf modification de ce paramètre, une seule unité d'exécution de pipeline démarre.
- Il est possible de configurer un paramètre d'accès concurrent local (par noeud de pipeline) dans le fichier de configuration du pipeline. Si vous indiquez un paramètre d'accès concurrent et
une valeur dans le fichier de configuration du pipeline par noeud de pipeline, cette valeur remplace
celle du paramètre système global. Lorsque vous émettez une commande de démarrage du pipeline sur
ce noeud, vous démarrez le même nombre d'unités d'exécution de pipeline en simultané
que celui indiqué dans le fichier de configuration du pipeline.