Vom Data Warehouse zum Data Hub
Von Markus Grau, Pure Storage
Nicht alle Daten in Unternehmensumgebungen sind leicht zugänglich, was die Bereitstellung für neue Anwendungsfälle immer aufwendiger macht. Während einige Unternehmen Data Lakes oder KI-Datenpipelines verwenden, greifen viele für den Großteil ihrer geschäftskritischen Arbeit immer noch auf ein Data Warehouse zurück. Data Warehouses sind für Analysezwecke optimierte zentrale Datenbanken, die Daten aus mehreren Quellen zusammenführen und konsolidieren. Gängig sind nach wie vor einzelserverbasierte Data-Warehouse-Lösungen.
Solche Data-Warehouse-Systeme sind Insellösungen, die sich auf einzelne Anwendungsfälle beschränken. Sie erlauben es, nur ein Subset der Daten zu analysieren, was mittels eines ETL-Prozesses (Extract, Transform, Load) erfolgt. Dabei werden Daten aus mehreren, gegebenenfalls unterschiedlich strukturierten Datenquellen in einer Zieldatenbank zusammengeführt. Es gibt dabei jedoch drei Hauptprobleme:
- Das erste betrifft schlicht und einfach die Performance; Data Warehouse Appliances haben in der Vergangenheit nicht mit dem Datenwachstum Schritt halten können.
- Zweitens sind die Kosten meist zu hoch: Wenn Rechenleistung und Speicherung gekoppelt sind, wie es bei Data Warehouse Appliances der Fall ist, kaufen Unternehmen am Ende zu viel von dem einen oder anderen.
- Drittens sind Data Warehouses letztlich zu unflexibel; verschiedene Appliances sind nur für jeweils eine bestimmte Arbeitslast effektiv.
Insgesamt erweist sich der Data-Warehouse-Ansatz somit als nicht zukunftssicher, wenn künftig eine Datenpipeline und KI-Szenarien miteinbezogen werden sollen.
Dynamische CI für unstrukturierte Daten
Diese Hürden können durch konvergierte Infrastrukturen (CI) genommen werden. Mit einer flexiblen, konvergierten, dynamischen Speicherinfrastruktur, basierend auf Flash-Objektspeicher, werden alle bisherigen Analyseprozesse weiterhin unterstützt, aber dabei massiv beschleunigt. Zusätzlich können nun aber auch moderne Analytik- und KI-Plattformen unterstützt werden, da kein Performance-Engpass mehr besteht. Moderne Flash-Objektspeicher-Lösungen dieser Art sind für multidimensionale Performance ausgelegt, also auf gleichzeitig zufällig/sequenziell, große Blöcke/kleine Blöcke und Bandbreite/IOPS.
Für Unternehmen, die einen Zwischenschritt vom Einzelserver-Data-Warehouse zu speziellen, auf KI- und Analytik ausgerichteten Lösungen benötigen, sind konvergierte Infrastrukturen für unstrukturierte Daten die richtige Alternative. Konvergierte Data-Warehouse-Lösungen erlauben es, Computing-Ressourcen, also Server-Rechenleistung, für den jeweiligen Analyseprozess dynamisch zuzuweisen. So kann man beispielsweise mit Serverprofilen einfach 20 statt 10 Server dem Prozess zuweisen, um ihn so zu beschleunigen.
Data Lakes und andere Silos sind auf sehr spezielle Nutzungen zugeschnitten – sie machen Daten nur sehr gezielt, sprich: eingeschränkt verfügbar. (Bild: Pure Storage)
Bei CI-Lösungen können Unternehmen Speicher- und Rechenressourcen unabhängig voneinander skalieren, ohne dass sie gleich weitere komplette Bricks/Blöcke anschaffen müssten. Ein wichtiger Aspekt ist dabei die Herstellerunabhängigkeit: Im Gegensatz zu einem Data-Warehouse-Silo, in dem nur die Software des Anbieters läuft, bieten CI mehr Flexibilität, weil man verschiedene Analyse- und KI-Tools einsetzen kann. Gerade in Zeiten, in denen verschiedenste Open-Source-Lösungen in Datenpipelines zum Einsatz kommen, ist dieser Weg der einzig gangbare. Eine solche CI erlaubt es, mittels einer zentral und einfach zu verwaltenden Lösung die komplette Infrastruktur für diese Datenpipelines zur Verfügung zu stellen – und bei Bedarf anzupassen.
Jedes herkömmliche Data-Warehouse-Silo ist für eine bestimmte Aufgabe ausgelegt. In der heutigen Zeit jedoch, in der Daten aus Data Warehouses auch für KI-Modelle wichtig sind, und Daten, die von KI-Modellen generiert werden, für Data-Warehouse-Analysen benötigt werden, ist dieser Siloansatz kontraproduktiv. Deswegen ist es an der Zeit, die zugrundeliegende Speicherarchitektur zu überdenken. Gegenstand der Überlegungen ist eine neue Klasse von Speicherarchitekturen, die mit dem Ziel entwickelt wurden, unternehmensweit Daten für moderne Analysen auszutauschen und bereitzustellen (und nicht in erster Linie, um Daten zu speichern). Für diese neue Architektur setzt sich im Storage-Umfeld derzeit der Begriff „Data Hub“ durch.
Dagegen vereint ein Data Hub hohen Datendurchsatz und natives Scale-out mit mehrdimensionaler Performance und einer massiv parallelen Architektur. (Bild: Pure Storage)
Data Hub für KI und Analytics
Beim Data Hub handelt es sich um eine datenzentrische Architektur für Datenanalyse und KI. Für Unternehmen, die ihre Daten lediglich aufbewahren wollen, ersetzt diese Architektur kein Data Warehouse oder Data Lake. Für Unternehmen, die ihre Daten jedoch über Abteilungen und Anwendungen hinweg vereinheitlichen und nutzbar machen möchten, ist ein Data Hub der richtige Ansatz. Der Hub macht sich die Stärken jedes einzelnen Silos zunutze, also einzigartige Funktionen, die für bestimmte Aufgaben optimiert sind, und integriert sie in eine einheitliche Plattform.
Schwarz auf Weiß
Dieser Beitrag erschien zuerst in unserer Magazinreihe „Rechenzentren und Infrastruktur“. Einen Überblick mit freien Download-Links zu sämtlichen Einzelheften bekommen Sie online im Pressezentrum des MittelstandsWiki.
In der Welt der modernen Analytik gibt es vier Klassen von Silos: Data Warehouse, Data Lake, Streaming-Analytik und KI-Cluster. Ein Data Warehouse erfordert einen massiven Durchsatz, insbesondere bei zufälligen Lesezugriffen. Data Lakes stehen für eine neue Kategorie von Scale-out-Storage. Streaming-Analytik geht über Batch-Jobs in einem Data Lake hinaus und erfordert eine mehrdimensionale Performance, unabhängig von der Datengröße (kleine oder große Datensätze) oder dem I/O-Typ (zufällig oder sequenziell). KI-Cluster, die von Zehntausenden von GPU-Kernen angetrieben werden, benötigen ebenfalls einen massiv parallelen Speicher, der Tausende von Clients und Milliarden von Objekten ohne Datenengpässe bedient. Und dann ist da noch die Cloud. Immer mehr Anwendungen sind „Cloud-nativ“ und basieren auf der Prämisse, dass die Infrastruktur disaggregiert und der Speicherplatz unbegrenzt ist. Der De-facto-Standard für die Speicherung ist das Objekt.
Ein Data Hub muss alle vier Eigenschaften aufweisen: hohen Datendurchsatz, natives Scale-out, mehrdimensionale Performance und eine massiv parallele Architektur. Diese vier Funktionen sind für die Vereinheitlichung der Daten unerlässlich. Ein Data Hub kann zwar auch andere Aufgaben wie Snapshots und Replikation übernehmen, aber wenn eine der vier Funktionen auf einer Speicherplattform fehlt, handelt es sich nicht um einen Data Hub. Wenn ein Speichersystem beispielsweise eine Datei mit hohem Datendurchsatz liefert und nativ skaliert wird, aber ein anderes System mit S3-Objektunterstützung für Cloud-native Workloads benötigt wird, wird die Vereinheitlichung der Daten unterbrochen. Die Geschwindigkeit der Datenverarbeitung sinkt – und genau das soll mit dem Data-Hub-Ansatz ausgeschlossen werden.
Momentan dreht sich alles um ChatGTP. Für die Zeit davor gibt eine Einführung einen ersten Überblick über den Stand der Technologien, die Fortsetzungen skizzieren praktische Einsatzgebiete für KI, insbesondere in der Industrie. Für den Lebenslauf könnten die Ratgeber zur KI-Studienstrategie bzw. zum KI-Studium (auch in Kombination mit Robotik) sowie zum Berufsbild Machine Learning Engineer und zum KI-Manager nützlich sein – aber auch die Übersicht zu den Jobs, die KI wohl ersetzen wird.
Extrabeiträge untersuchen, wie erfolgreich Computer Computer hacken, ob und wann Vorbehalte gegen KI begründet sind und warum deshalb die Erklärbarkeit der Ergebnisse (Stichwort: Explainable AI bzw. Erklärbare KI) so wichtig ist. Hierher gehört außerdem der Seitenblick auf Maschinenethik und Münchhausen-Maschinen. Als weitere Aspekte beleuchten wir das Verhältnis von KI und Vorratsdatenspeicherung sowie die Rolle von KI in der IT-Sicherheit (KI-Security), fragen nach, wie Versicherungen mit künstlicher Intelligenz funktionieren, hören uns bei den Münchner KI-Start-ups um und sehen nach, was das AIR-Projekt in Regensburg vorhat. Ein Abstecher führt außerdem zu KI-Unternehmen in Österreich.
Auf der rein technischen Seite gibt es Berichte zu den speziellen Anforderungen an AI Storage und Speicherkonzepte bzw. generell an die IT-Infrastruktur für KI-Anwendungen. Außerdem erklären wir, was es mit AIOps auf sich hat, und im Pressezentrum des MittelstandsWiki gibt es außerdem die komplette KI-Strecke aus dem Heise-Sonderheft c’t innovate 2020 als freies PDF zum Download.
Aufbruch aus den Datensilos
Der Data-Hub-Ansatz bietet ein großes Potenzial für die Storage-Branche, auch wenn es weiterhin einen Markt für Silospeicherlösungen, also Data Warehouse Appliances und Data Lakes, geben wird. Die neue Ära von Analytik und KI steht jedoch bereits auf der Schwelle. Dabei geht es – plakativ ausgedrückt – darum, die eigene Organisation in der Lage zu versetzen, zehn Millionen Mal mehr Daten auszuwerten, um einen weiteren Schritt nach vorn zu kommen. Vor diesem Hintergrund steht das Teilen und Bereitstellen von Daten statt wie bisher die Speicherung von Daten im Vordergrund. Systeme, die für die unternehmensweite gemeinsame Nutzung von Daten entwickelt sind, unterscheiden sich grundlegend von denen, die in erster Linie für die Speicherung von Daten konzipiert wurden.
Heute lagern viele Unternehmen ihre Daten in Silos und an schwer zugänglichen Stellen; sie müssen diese Daten zeitaufwendig von einem zum anderen Silo kopieren, um sie zu verarbeiten. Dies wird bald der Vergangenheit angehören, da immer mehr Unternehmen verstehen, dass Daten ein Vermögenswert sind und dass sie daraus geschäftlichen Wert schöpfen können. Unternehmen werden sich darum nicht mehr auf reine Datenspeicherung beschränken, sondern sich darauf konzentrieren, was sie mit ihren Daten erreichen können. Während die Minimierung der Speicherkosten pro Datenvolumen für viele Anwendungsfälle wichtig bleibt, wird die Storage-Branche künftig vor allem Systeme entwickeln müssen, um die Daten zu vereinheitlichen und abteilungsübergreifend nutzbar zu machen. Data Hubs sind der richtige Ansatz für die Speicheranforderungen der Zukunft, die in schnellen Schritten näher rückt.
Markus Grau ist Principal Systems Engineer bei Pure Storage. Mit Pure Storage können Unternehmen die Grenzen des Möglichen überschreiten. Die Kombination aus All-Flash-Technologie und Benutzerfreundlichkeit unterstützt die Business- und IT-Transformation mit Smart Storage und verspricht einen mühelosen, effizienten und nachhaltigen Einsatz. Pure Storage hat zwei Kernprodukte im Angebot: FlashArray//M, optimiert für strukturierte Workloads, und FlashBlade, ideal für unstrukturierte Daten.
Pure Storage, Inc., Konrad-Zuse-Platz 8, 81829 München, Tel.: 089-120895072, dach@purestorage.com, www.purestorage.com