Im Zentrallager für Firmendaten
Von Oliver Jendro/bw
Ein Data Warehouse ist eine zentrale Sammelstelle für betriebliche Echtdaten – interne wie externe –, die dort erfasst sind und dann Stellen wie Geschäftsführung, Controlling, Buchhaltung etc. für Analysen und Berichte zur Verfügung stehen. Dort liegen alle relevanten Daten als Kennzahlen des Unternehmens sortiert, gereinigt und standardisiert vor. Es ist der Grundstock jeder Business-Intelligence-Anwendung.
Eine sinnvolle Data-Warehouse-Lösung sollte folgende Kriterien erfüllen:
- gute Performance auch bei hohen Zugriffszahlen und erhöhtem Datenbestand,
- Sicherheit gegen unbefugten Zugriff auf sensible Unternehmensdaten und
- geringer Verwaltungsaufwand.
Die Hauptfunktion liegt in der Bereitstellung und Verarbeitung großer Datenmengen. Mit diesen arbeiten die Analysen und Auswertungen (XPS, Data Mining etc.). Ist die Datenbasis im Data Warehouse fehlerhaft, wird auch die Analyse fehlerhaft sein. Falsche Entscheidungen aus dem Management sind die Folge. Es ist also elementar, dass der vorangehende ETL-Prozess das Data Warehouse mit validen, eindeutigen und richtigen Informationen befüllt.
BI-Datenbank im Querschnitt
Das Besondere an einem Data Warehouse ist, dass es unabhängig vom operativen Geschäft eine Analyse ermöglicht, die neue, bislang unbekannte Zusammenhänge offen legen kann. Dank externer Analysetools, die auf ein Data Warehouse zugreifen, kann der Anwender wie in einer Suchmaschine Daten beziehen und in Verbindung setzen – ohne die Substanz zu verändern.
Sieht man sich ein Data Warehouse näher an, so zeigt es einige typische Merkmale: Es ist themenspezifisch aufgebaut, es erfasst einen definierten Zeitraum und es beherbergt Daten in einem definierten Detailgrad. Die Daten sind immer thematisch auf die Informationsbedürfnisse der Nutzergruppe zugeschnitten. Das können Produkte, Produktgruppen, Kunden, Märkte oder andere für das Management relevante Themenbereiche sein.
Teil 1 ist harmlos. Business Intelligence kennt jeder Unternehmer, vielleicht nur unter anderem Namen. Teil 2 sagt, welche Fortschritte IT bei der Kennzahlenanalyse macht. Teil 3 wird handfest: Welche BI-Anbieter es gibt, was sinnvoll ist und womit Sie rechnen müssen.
Als zweites wichtiges Merkmal gilt der zeitliche Bezug: Während z.B. Lagersysteme den Ist-Zustand auslesen („Wie viele Produkte sind derzeit auf Lager?“), befinden sich im Data Warehouse Daten einer längeren Periode, die für eine Zeitraumanalyse geeignet sind, z.B. Tages-, Wochen- oder Monatsanalysen zum Verkauf oder Umsatz der Produkte.
Zudem werden Daten im Data Warehouse dauerhaft abgelegt; das Data Warehouse ist ein schnell verfügbares Datenlager. Die Vorhaltung hat natürlich zur Folge, dass die Informationsmenge im Data Warehouse beständig wächst. Es muss daher bei der Einführung des Business-Intelligence-Systems klar sein, was ins Data Warehouse muss und wie lange es verfügbar sein soll. Nicht benötigte Daten wandern in Archive.
Bei der Granularität gilt der Handwerkerleitspruch: „So genau wie nötig, nicht so genau wie möglich.“ Während das Management die Daten möglichst detailliert vorhalten will, muss die IT-Abteilung die Menge begrenzen. Denn je größer das Volumen, desto teurer die Pflege und Speicherung. Zudem verlangsamt sich der Zugriff – ein nachteiliger Effekt, der dann auch die Arbeit des Managements behindert.
Ein weiteres Data-Warehouse-Merkmal ist die Definition des Detailgrads der Daten, auch Granularität genannt. Sehr detaillierte Daten haben eine niedrige Granularität, sie sind sehr „feinkörnig“. Hoch komprimierte, also stark vereinfachte Daten haben hingegen eine hohe Granularität. Die Vereinfachung erfolgt beispielsweise durch das Zusammenfassen von Daten, durch Bildung eines Mittelwertes oder einer Summe.
Abfragen nach Perspektive
Ein Data Warehouse enthält in der Regel zwei unterschiedliche Strukturen:
- das Core Data Warehouse und
- die Data Marts.
Das Core Data Warehouse ist der Kern des Datenlagers; er besteht aus einer Datenbank, die aus dem operativen Geschäft befüllt wird – aus internen und externen Quellen. Es umfasst selbst bei mittelständischen Unternehmen schnell mehrere Terabytes.
Um das Arbeiten mit dem Data Warehouse zu beschleunigen, werden daher so genannte Data Marts angelegt. Man übersetzt das meist mit „Datenzentren“. Gemeint ist Teildatenbestand innerhalb eines Data Warehouses, der ein langfristig gehalten wird, oder die Kopie eines Teilbereichs, die extra für eine bestimmte Abteilung oder Anwendung angelegt wird. Data Marts ermöglichen so eine Teilsicht (View) auf das Data Warehouse.
Die Gründe für die Arbeit mit einem Data Mart sind vielschichtig: Beispielsweise kann es über eine spezielle eigene Datenstruktur verfügen (etwa eine mehrdimensionale). Zudem lassen sich Data Marts auf abteilungsspezifische Anforderungen optimieren. Der wichtigste Grund bleibt für die Einrichtung aber die Beschleunigung der Verarbeitungsgeschwindigkeit von Analyseanfragen.