Vorsprung durch V-Analytics
Von Christian Friese und Christian Löhnert, ConSol Software
Nach wie vor wird Big Data oft noch mit sehr großen Datenmengen gleichgesetzt. Diese Einschätzung greift eindeutig zu kurz. Das Thema ist viel weiter zu fassen. Gemäß der ersten Big-Data-Definition mit den bekannten drei Vs geht es dabei um volume (große Datenmengen), variety (die Vielfalt an Daten) und velocity (die in unterschiedlichen Geschwindigkeiten anfallenden Daten). Jedes einzelne V kann letztlich der ausschlaggebende Grund für eine Big-Data-Einführung sein.
Mit herkömmlichen Business-Intelligence-Tools können die Herausforderungen im Umfeld der drei Vs nicht adäquat adressiert werden. Denn damit sind V-Daten nicht oder nur mit großem Aufwand analysierbar, während spezialisierte Big-Data-Lösungen genau die technischen Features bieten, mit denen sich umfangreiche Analysen schnell durchführen lassen. Außerdem können mit Big-Data-Technologien Daten aus der Vergangenheit und Gegenwart und aus verschiedenen internen und externen Quellen in Beziehung zueinander gesetzt werden, um Korrelationen und Muster zu erkennen. Auf dieser Basis ist es auch möglich, zukünftige Auswirkungen und Resultate rechnerisch zu prognostizieren.
Schrittweises Vorgehen
Für eine erfolgreiche und schnelle Big-Data-Implementierung sind schon das richtige Aufsetzen des Projekts und die ersten Schritte entscheidend. Generell empfiehlt sich ein iteratives Vorgehen. Zunächst sollte ein dreistufiger Ansatz gewählt werden: mit einer Ermittlung der Daten, einer Analyse der Daten und einer Definition von Anwendungsfällen.
Schwarz auf Weiß
Dieser Beitrag erschien zuerst in unserer Magazinreihe „Rechenzentren und Infrastruktur“. Einen Überblick mit freien Download-Links zu sämtlichen Einzelheften bekommen Sie online im Pressezentrum des MittelstandsWiki.
In einem ersten Schritt ist das „Informationsökosystem“ des Unternehmens zu untersuchen, um alle für die Geschäftsprozesse relevanten Daten zu ermitteln. Dabei sind vor allem solche Fragen zu klären: Welche Daten liegen wo und in welcher Form vor? Welches Datenvolumen fällt an? Wie häufig werden Daten erzeugt und/oder geändert? Welche bekannten Beziehungen haben die Daten zueinander? Gibt es Einschränkungen bei der Nutzung und Speicherung der Daten? Welche Schnittstellen gibt es für den Datenzugriff?
Die gesammelten Informationen müssen im nächsten Schritt einer Analyse unterzogen werden. Ziel dabei ist, Daten und Zusammenhänge aufzuzeigen, zu clustern und eine System-Daten-Matrix zu erstellen. Die Analyse ist meist der aufwendigste Teil, da ein externer Consultant hierfür ein umfassendes Verständnis der branchentypischen Daten und Zusammenhänge mitbringen muss. Aus der Analyse ergibt sich dann in der Regel ein Bild von definierten Datendomänen. Eine Datendomäne kapselt dabei verschiedene Daten und Datentöpfe in generische Cluster mit ähnlichen Inhalten (zum Beispiel Kundendaten, Interaktionsdaten, Marketing-Informationen oder Finanzdaten). Um eine Einordnung und Bewertung im Big-Data-Kontext zu erleichtern, müssen die Domänen und Daten aber noch weiter klassifiziert werden. Kriterien hierfür sind zum Beispiel das Volumen, die Häufigkeit und die Art des Auftretens, der Typ (strukturiert oder unstrukturiert) sowie die Qualität beziehungsweise der Informationsgehalt. Auf dieser Basis kann dann eine System-Daten-Matrix erstellt werden.
In einem dritten Schritt sollten aus der Vielzahl potenzieller Anwendungsmöglichkeiten ein oder zwei konkrete Szenarien ausgewählt werden. Anhand dieser Anwendungsfälle kann dann schnell überprüft werden, ob und wie durch Big Data in kurzer Zeit ein realer Mehrwert für das Business generiert werden kann.
Christian Friese ist Account Manager bei der ConSol Software GmbH, Christian Löhnert ebendort Pre-Sales Consultant. ConSol ist ein erfahrener Spezialist für Beratung, Entwicklung, Integration und Betrieb komplexer IT-Systeme. Der Schwerpunkt liegt auf individuellen Komplettlösungen für Betriebssysteme, Netzwerke, Datenbanken oder Web-Services. Hinzu kommt das eigene Produkt ConSol CM, eine Low-Code Platform, mit der sich sehr schnell Innovationen für Fach- und interne Prozesse umsetzen lassen. ConSol ist mehrfach für sein nachhaltiges IT-Verständnis ausgezeichnet worden.
Das Big-Data-Vorgehensmodell von ConSol:
- Risikoarmes Vorgehen und leichtgewichtiger Start
- Von kurzen Workshops mit Potenzialidentifizierung zu überschaubaren Projekten
- Nutzung von Fachexpertise im gesamten Apache-Hadoop-Ökosystem und im Umfeld von Cloudera und Hortonworks
- Verknüpfung von Big Data mit Datenanalyse und Business Intelligence zur Schaffung maximalen Mehrwerts
ConSol Consulting & Solutions Software GmbH, Franziskanerstr. 38, 81669 München, Tel.: 089-45841-100, info@consol.de, www.consol.de
Generell hat sich gezeigt, dass bei Big-Data-Projekten nicht von Anfang an der große Wurf gewagt werden sollte. Das Motto muss lauten: „Klein anfangen, groß wachsen.“ Es ist also immer ein schrittweises Vorgehen angebracht. Man sollte mit einem Pilotprojekt starten und erst anschließend das Lösungsszenario sukzessive ausweiten. Der Grund: Die Möglichkeiten, die ein Big-Data-Ansatz durch die Verknüpfung aller verfügbaren Datenquellen mit sich bringt, sind komplex. Die Charakteristika eines ersten Szenarios sollten daher eine geringe Komplexität, schnelle Realisierbarkeit und ein erkennbarer Mehrwert sein.
Technische Umsetzung
Nach unseren Erfahrungen vertritt noch immer ein großer Anteil mittelständischer Unternehmen beim Thema Big Data die Auffassung „Dafür sind wir zu klein“; damit sind vor allem die Kosten der technischen Umsetzung gemeint. Zutreffend ist diese Einschätzung aber nicht unbedingt. Denn moderne Technologien ermöglichen es auch kleinen und mittelständischen Unternehmen, durchaus kostengünstig in ein Projekt einzusteigen – teilweise sogar Open-Source-basiert –, zumindest im Hinblick auf die Software und Plattform.
Beispiel für eine System-Daten-Matrix (Bild: ConSol)
Hinsichtlich der zentralen Big-Data-Aufgaben, möglichst viele unterschiedliche Datenquellen miteinander zu verknüpfen und Daten schnell zu analysieren, bieten sich vor allem Systeme an, die hochgradig verteil- und skalierbar sind. Dabei sind nicht nur Datenbanken relevant, sondern auch verteilte Dateisysteme. Dazu kommt eine sehr effiziente Nutzung des Arbeitsspeichers (Memory) für die Datenzugriffe und für Berechnungen auf den Daten (Caching). So setzen NoSQL-Datenbanken im Hadoop-Ökosystem (wie Apache HBase) hochgradig auf Verteilung und Memory-Optimierung und können so extrem schnellen Zugriff auf Terabytes von Daten bieten. Technologien wie Apache Spark setzen bei der Datenverarbeitung ebenfalls auf Verteilung und Memory-Optimierung, um Geschwindigkeitsvorteile zu erzielen.
Jedes Unternehmen – durchaus auch ein mittelständisches – sollte auf jeden Fall überprüfen, inwieweit Big Data zusätzliche oder neue Marktchancen eröffnen kann. Denn eines darf nicht übersehen werden: Daten und Informationen sind die „neue Währung“. Ein besseres Marktverständnis bedeutet immer einen Informationsvorsprung – und dieser lässt sich leicht in einen Wettbewerbsvorteil ummünzen.