Les pipelines sont le composant qui effectue le standardisation et uniformisation
de nom et adresse, la gestion de la qualité des données et la résolution d'entité. Les pipelines
se chargent également de la résolution de relation et génèrent les alertes, en fonction des configurations système.
Les pipelines effectuent trois processus fondamentaux :
- La reconnaissance, qui implique d'optimiser les données entrantes en effectuant
la standardisation, l'uniformisation et la rationalisation des données, ainsi que les vérifications de la qualité
- La résolution, qui implique de résoudre les entités
- Le rattachement, qui implique de détecter les relations et de déclencher les alertes
Les pipelines sont hébergés par des noeuds de pipeline.
Vous pouvez configurer des pipelines pour le traitement parallèle de sorte qu'une
commande de pipeline engendre plusieurs unités d'exécution de traitement de pipeline parallèle, ce qui permet
au système de traiter simultanément plusieurs demandes de données. Cette fonction peut contribuer
à améliorer les performances du système, à réduire le délai de traitement des données et à atténuer
les contraintes de mémoire matérielle.
La fonction de traitement de pipeline parallèle se configure à deux endroits :
- Le paramètre de simultanéité globale est contrôlé par le paramètre système DEFAULT_CONCURRENCY
de l'onglet Paramètres système, dans la console de
configuration. La valeur fixée ici détermine le nombre d'unités d'exécution de traitement parallèle
lancé par une commande de démarrage de pipeline. La valeur du paramètre système DEFAULT_CONCURRENCY
est 1, ce qui signifie que sauf modification du paramètre, une
seule unité d'exécution de traitement de pipeline démarre.
- Un paramètre de simultanéité local (par noeud de pipeline) peut être configuré dans le
fichier de configuration de pipeline. Si vous indiquez un paramètre et une valeur de simultanéité
dans le fichier de configuration de pipeline noeud par noeud, cette valeur supplante
le paramètre système global. Quand vous émettez une commande de démarrage de pipeline sur ce
noeud de pipeline, vous démarrez le même nombre d'unités d'exécution de traitement de pipeline
simultanées que celui indiqué dans le fichier de configuration de pipeline.