Pipelines bilden die Komponente, die Namens- und Adressbereinigungsstandardisierung, Datenqualitätsmanagement und Entitätsauflösung ausführt. Basierend auf der Systemkonfiguration lösen Pipelines auch Beziehungen auf und generieren Alerts.
Pipelines führen drei Kernprozesse aus:
- Erkennen: Hierzu gehört das Optimieren ankommender Daten durch die Ausführung von Datenstandardisierung, -bereinigung, -erweiterung und -qualitätsprüfungen.
- Auflösen: Hierzu gehört das Auflösen von Entitäten.
- Beziehungen erkennen: Hierzu gehört das Erkennen von Beziehungen und Generieren von Alerts.
Pipelines werden auf Pipelineknoten bereitgestellt.
Sie können Pipelines für Parallelverarbeitung konfigurieren, damit ein Befehl 'pipeline' mehrere
parallele Pipelineverarbeitungsthreads startet, mit deren Hilfe das System mehrere Datenanforderungen gleichzeitig verarbeiten kann. Diese Funktion kann dazu beitragen, dass die Systemleistung verbessert, die Datenverarbeitungszeit gesenkt und Hardwarespeichereinschränkungen reduziert werden.
Die Pipelineparallelverarbeitung wird an zwei Stellen konfiguriert:
- Die Einstellung für globalen gemeinsamen Zugriff wird durch den Systemparameter DEFAULT_CONCURRENCY auf der Indexzunge Systemparameter in der Konfigurationskonsole gesteuert. Der hierfür angegebene Wert bestimmt die Anzahl Parallelverarbeitungsthreads, die von einem Pipelinestartbefehl gestartet werden. Der Wert für den Systemparameter DEFAULT_CONCURRENCY ist 1, was bedeutet, dass nur ein Pipelineverarbeitungsthread gestartet wird, wenn dieser Parameter nicht bearbeitet wird.
- Eine Einstellung für lokalen gemeinsamen Zugriff (nach Pipelineknoten) kann in der Pipelinekonfigurationsdatei konfiguriert werden. Wenn Sie einen Parameter für gemeinsamen Zugriff und einen Wert in der Pipelinekonfigurationsdatei nach Pipelineknoten angeben, überschreibt dieser Wert den globalen Systemparameter. Wenn Sie auf diesem Pipelineknoten einen Pipelinestartbefehl absetzen, starten Sie die in der Pipelinekonfigurationsdatei angegebene Anzahl gleichzeitig ablaufender Pipelineverarbeitungsthreads.