Die Systeme mit Betriebsdaten (d. h. Daten, die für die täglichen Transaktionen des Geschäftsbetriebs benötigt werden) enthalten Informationen, die für Geschäftsanalysen nützlich sind. Zum Beispiel können Analytiker Informationen darüber nutzen, welche Produkte in welchen Gebieten zu welcher Jahreszeit verkauft wurden, um Abweichungen zu erkennen oder zukünftige Verkäufe zu projektieren.
Jedoch ergeben sich beim direkten Zugriff auf Betriebsdaten durch Analytiker verschiedene Probleme:
Data Warehouses schaffen diesen Problemen Abhilfe. In Data Warehouseswerden Speicher informativer Daten eingerichtet, d. h. Daten, die aus den Betriebsdaten extrahiert und zur Entscheidungsfindung für Endbenutzer aufbereitet werden. Zum Beispiel könnte ein Data Warehouse-Tool alle Verkaufsdaten aus der Betriebsdatenbank kopieren, Berechnungen durchführen, um die Daten zusammenzufassen, und die zusammengefaßten Daten in eine Zieltabelle einer von der Betriebsdatenbank getrennten Datenbank schreiben. Die getrennte Datenbank (das sog. Warehouse) kann dann von Endbenutzern abgefragt werden, ohne die Betriebsdatenbanken zu beeinträchtigen.
In den folgenden Abschnitten werden Objekte (Themenbereiche, Warehouse-Quellen, Warehouse-Ziele, Agenten, Agenten-Sites, Schritte und Prozesse) beschrieben, die zur Erstellung und Pflege eines Data Warehouse verwendet werden.
Ein Themenbereich identifiziert und gruppiert die Prozesse, die zu einem logischen Bereich des Geschäftsbetriebs gehören. Wenn Sie zum Beispiel ein Warehouse mit Marketing- und Verkaufsdaten aufbauen, können Sie einen Themenbereich Verkauf und einen Themenbereich Marketing definieren. Anschließend können Sie die Prozesse, die zum Verkauf gehören, unter dem Themenbereich Verkauf hinzufügen. Analog können Sie die Definitionen, die sich auf die Marketing-Daten beziehen, unter dem Themenbereich Marketing hinzufügen.
Warehouse-Quellen geben die Tabellen und Dateien an, denen die Daten für das Warehouse entnommen werden. Die Data Warehouse-Zentrale verwendet die Angaben in den Warehouse-Quellen, um auf Daten zuzugreifen und sie auszuwählen. Die Quellen können beinahe jede relationale oder nicht relationale Quelle (Tabelle, Sicht oder Datei) sein, von der eine Verbindung zum Warehouse hergestellt werden kann.
Warehouse-Ziele sind Datenbanktabellen oder Dateien, die Daten enthalten, die zur Verwendung durch Endbenutzer aufbereitet wurden. Ähnlich wie Warehouse-Quellen können auch Warehouse-Ziele Daten für Schritte der Data Warehouse-Zentrale bereitstellen.
Agenten der Data Warehouse-Zentrale verwalten den Datenfluß zwischen den Datenquellen und den Ziel-Warehouses. Agenten sind für die Betriebssysteme Windows NT, AIX, OS/2, OS/390, OS/400 und SUN Solaris verfügbar. Diese Agenten verwenden ODBC-Treiber (Open Database Connectivity) oder DB2 CLI zur Kommunikation mit verschiedenen Datenbanken.
Die Übertragung von Daten zwischen Quellen und Ziel-Warehouses kann von mehreren Agenten übernommen werden. Die Anzahl der Agenten, die Sie verwenden, hängt von der vorhandenen Konnektivitätskonfiguration und dem geplanten Volumen der Daten ab, die in das Warehouse fließen sollen. Zusätzliche Exemplare eines Agenten können generiert werden, wenn mehrere Prozesse, die den gleichen Agenten benötigen, gleichzeitig ausgeführt werden.
Agenten können lokal oder fern sein. Ein lokaler Warehouse-Agent ist ein Agent, der auf derselben Maschine wie der Warehouse-Server installiert ist. Ein ferner Warehouse-Agent ist ein Agent, der auf einer anderen Maschine installiert ist, die über eine Konnektivität zum Warehouse-Server verfügt.
Eine Agenten-Site ist ein logischer Name für eine Workstation, auf der Agentensoftware installiert ist. Der Name der Agenten-Site ist nicht mit dem TCP/IP-Host-Namen identisch. Eine einzelne physische Maschine kann nur einen TCP/IP-Host-Namen besitzen. Jedoch können auf einer einzelnen Maschine mehrere Agenten-Sites definiert werden. Jede Agenten-Site wird durch einen logischen Namen angegeben.
Die Standardagenten-Site, die den Namen Standard-VW-Agenten-Site besitzt, ist ein lokaler Agent auf Windows NT, der von der Data Warehouse-Zentrale während der Initialisierung der Warehouse-Steuerungsdatenbank definiert wird.
Ein Schritt ist eine logische Definitionseinheit in der Data Warehouse-Zentrale, die folgendes definiert:
Schritte übertragen Daten und setzen sie um, indem sie SQL-Anweisungen ausführen oder Programme aufrufen. Wenn Sie einen Schritt ausführen, findet die Datenübertragung zwischen der Warehouse-Quelle und dem Warehouse-Ziel sowie die Umsetzung dieser Daten statt.
Ein Prozeß enthält eine Reihe von Schritten, die Umsetzungs- und Datenübertragungstasks ausführen. In der Regel füllt ein Prozeß ein Warehouse-Ziel in einer Warehouse-Datenbank, indem er Daten aus einer oder mehreren Warehouse-Quellen extrahiert, bei denen es sich um Datenbanktabellen oder Dateien handeln kann. Jedoch können Sie einen Prozeß auch zum Starten von Programmen definieren, wobei weder Warehouse-Quellen noch Warehouse-Ziele angegeben werden.
Ein Schritt kann auf Anforderung ausgeführt oder zur Ausführung zu einem bestimmten Zeitpunkt terminiert werden. Ein Schritt kann zur einmaligen Ausführung oder zur wiederholten Ausführung, z. B. jeden Freitag, eingeplant werden. Schritte können auch so terminiert werden, daß sie nacheinander ausgeführt werden, d. h., wenn ein Schritt beendet wird, wird der nächste Schritt gestartet. Schritte können zudem abhängig von der (erfolgreichen oder nicht erfolgreichen) Beendigung eines anderen Schritts eingeplant werden. Wenn Sie einen Prozeß über einen Zeitplan terminieren, wird der erste Schritt des Prozesses zur definierten Zeit ausgeführt.
Wenn ein Schritt oder ein Prozeß ausgeführt wird, kann er Daten auf folgende Arten speichern:
Nehmen Sie zum Beispiel an, daß die Data Warehouse-Zentrale die folgenden Aufgaben ausführen soll:
In diesem Beispiel würden Sie einen Prozeß erstellen, der einzelne Schritte enthält. Jeder Schritt würde eine getrennte Task, wie zum Beispiel das Extrahieren der Daten aus den Datenbanken oder die Konvertierung der Daten in das richtige Format, ausführen. Dann würden Sie einen weiteren Schritt verwenden, um die Zieltabelle zu füllen, die die umgesetzten Daten enthält.
In den folgenden Abschnitten werden die verschiedenen Arten von Schritten beschrieben, die in der Data Warehouse-Zentrale verfügbar sind. Weitere Informationen zu Schritten finden Sie im Handbuch Data Warehouse-Zentrale Verwaltung.
Ein SQL-Schritt arbeitet mit einer SQL-Anweisung SELECT, um Daten aus einer Warehouse-Quelle zu extrahieren, und generiert eine Anweisung INSERT, um die Daten in die Warehouse-Zieltabelle einzufügen.
Es gibt verschiedene Typen von Programmschritten: DB2 for AS/400-Programme, DB2 for OS/390-Programme, DB2 for UDB-Programme, Visual Warehouse 5.2 DB2-Programme, OLAP Server-Programme, Dateiprogramme und Replikation. Diese Schritte führen vordefinierte Programme und Dienstprogramme aus.
Umsetzungsschritte sind gespeicherte Prozeduren und benutzerdefinierte Funktionen, die Umsetzungen für das Warehouse oder statistische Funktionen angeben, die zur Umsetzung von Daten verwendet werden können. Mit Umsetzungsprogrammen können Sie Daten bereinigen, umkehren und umlagern, Primärschlüssel und Periodentabellen generieren sowie verschiedene statistische Berechnungen durchführen.
In einem Umsetzungsschritt geben Sie eines der statistischen oder Warehouse-Umsetzungsprogramme an. Wenn der Prozeß ausgeführt wird, schreibt der Umsetzungsschritt Daten in ein oder mehrere Warehouse-Ziele.
Ein benutzerdefinierter Programmschritt ist eine logische Definitionseinheit innerhalb der Data Warehouse-Zentrale, die eine Anwendung darstellt, die von der Data Warehouse-Zentrale gestartet werden soll. Ein Warehouse-Agent kann einen benutzerdefinierten Programmschritt zu folgenden Zeiten starten:
Zum Beispiel können Sie ein benutzerdefiniertes Programm schreiben, das den folgenden Prozeß ausführt: