Auslesen, umwandeln, speichern
Von Oliver Jendro/Hans Klumbies
Extract, Transform, Load (ETL) ist die Kurzformel für das schrittweise Vorgehen bei der Informationsintegration. ETL sammelt aus verschiedenen Unternehmenssoftwaresystemen und Informationsquellen Daten (Extraktion) und bereitet sie auf (Transformation), so dass sie in einer einheitlichen Form vorliegen, ohne Fehler oder Duplikate; das ermöglicht dann die Ablage im Data Warehouse (Laden). Typischerweise geschieht dies im Verlauf eines Business-Intelligence-Prozesses.
ETL funktioniert immer in drei Schritten:
- Extraktion aus den unterschiedlichen Quellen,
- Transformation in das einheitliche Schema und Format,
- Laden der Daten in die Zieldatenbank.
Von der Qualität und der Geschwindigkeit des ETL-Prozesses hängt die Qualität der Daten ab, die in die BI-Analysen eingehen. In der Regel werden dafür spezielle ETL-Programme eingesetzt, die auf die Infrastruktur des Unternehmens optimiert sind.
Notwendig wird dies, weil am Anfang jeder Geschäftsanalytik die Rohdaten des Unternehmens stehen. Diese müssen erst gesammelt, gespeichert und zur Weiterverarbeitung aufbereitet werden. In der Realität kommen sie auch nicht aus einer einheitlichen Quelle, sondern aus verschiedenen Anwendungen, von verteilten Standorten und in unterschiedlicher Beschaffenheit. Sie kommen aus Excel-Tabellen, gescannten Lieferscheinen, aus Archiven oder Datenbanken jeglicher Form. Alle relevanten Daten müssen daher vor der Speicherung zuerst zusammengeführt, bereinigt und standardisiert werden. Das heißt, dass die wichtigsten Informationen z.B. eines Lieferscheins extrahiert werden müssen, genauso wie aus der Excel-Tabelle, die beispielsweise die Vertriebsumsätze der Mitarbeiter enthält. Oder die ERP-Daten aus einer SAP-Umgebung. Dieser Vorgang erfolgt meist automatisch mittels einer ETL-Anwendung.
Teil 1 ist harmlos. Business Intelligence kennt jeder Unternehmer, vielleicht nur unter anderem Namen. Teil 2 sagt, welche Fortschritte IT bei der Kennzahlenanalyse macht. Teil 3 wird handfest: Welche BI-Anbieter es gibt, was sinnvoll ist und womit Sie rechnen müssen.
Das Schwierige daran: Es gibt unterschiedliche „richtige Informationen“: Daten, die zwar korrekt sind, deren Inhalt aber anders definiert ist. Ein Beispiel: Die Eigenschaft „männlich/weiblich“ wird im CRM-System mit „m“ und „w“ definiert, im ERP-Datensatz hingegen mit „0“ und „1“. Über den ETL-Prozess werden diese Angaben auf einen gemeinsamen Nenner gebracht, also transformiert.
Internationale Konzerne haben beispielsweise meist Dutzende unterschiedlicher Beschaffungsanwendungen im Einsatz (Procurement-Systeme). Damit die Zentrale den Einkauf steuern und optimieren kann, z.B. die günstigsten Lieferanten identifizieren kann, braucht es eine einheitliche Datenbasis.
Per ETL-Prozess werden die Daten ausgelesen, transformiert und in eine Datenbank geladen. Diese Datenbank wird als Data Warehouse bezeichnet. Das ist quasi der Datenkontor, ein Lager mit sehr hoher Verfügbarkeit, gefüllt mit unternehmenskritischen Daten, bereit für Analyse (OLAP, XPS, EUS etc.) und Reporting.