Datenmanagement

Korrekte Kundendaten sichern den Erfolg

Von Dr. Holger Wandt, Human Inference

„Nichts ist so beständig wie der Wandel.“ Dieser Satz des Philosophen Heraklit gilt durchaus auch für Firmen- und Kundendaten. Studien belegen, dass rund ein Viertel der Adressdaten in deutschen Unternehmen veraltet oder fehlerhaft ist; dadurch entstehen jedes Jahr Kosten im mehrstelligen Millionen-Euro-Bereich. Ein systematisches und intelligentes Datenmanagement vermeidet Fehler und kostenaufwendige Dubletten.

Etwa 8 Mio. Umzüge und 840.000 Sterbefälle pro Jahr in Deutschland führen zu Adressänderungen, 370.000 Hochzeiten und 190.000 Scheidungen bringen oft Namenswechsel mit sich. Hinzu kommen jährlich Tausende von Änderungen bei Straßennamen, Postleitzahlen und Orten. Doch auch bei den Firmen ist alles im Fluss: „Alle sieben Minuten zieht ein Unternehmen um, alle zehn Minuten wird eine Insolvenz angemeldet und alle zwölf Minuten fusionieren zwei Betriebe“, rechnet Jochen Bühler, Abteilungsleiter Bonität und Datenmanagement bei der Schufa in Wiesbaden, vor.

Dubletten sind die schlimmsten Fehler

Wer große Datenbestände zu pflegen hat, ist deshalb auf ein effizientes Daten- und Risikomanagement und eine professionelle Datenpflege angewiesen. Neben der Fehlerfreiheit sollte vor allem auch sichergestellt werden, dass Datensätze nicht mehrfach vorhanden sind. Doch wie und wem fällt auf, dass es sich z.B. bei den Einträgen „Dr. John J. Farren jr.“ und „John J. Pharan jr. PhD“ um ein und dieselbe Person handelt? Und wie filtert man eine Dublette, die einmal die Bayerischen Motorenwerke in der Namenszeile führt und ein weiteres Mal nur das Akronym BMW? Werden verschiedene Datenbestände zusammengeführt, z.B. bei Fusionen, potenzieren sich die Fehlerquellen. Ein rein mathematischer Vergleich der Datensätze reicht hier nicht aus.

Ein weiteres Problem: „Oft ist nicht einmal geklärt, welche Abteilung in einem Unternehmen überhaupt für die Qualität der Daten zuständig ist. Nicht selten sind unterschiedliche Abteilungen wie Controlling, IT oder Marketing verantwortlich“, so Jochen Bühler.

Für besonders kritisch hält es der Praktiker, wenn versteckte Dubletten z.B. bei Umzügen oder Umfirmierungen entstehen. Streuverluste und Mehrfachsendungen sind die Folge. Einen typischen Fall beschreibt Bühler so: „Stellen Sie sich vor, ein Kunde taucht aufgrund von unterschiedlichen Schreibweisen doppelt in der Datenbank auf und erhält einmal 13 % Stammkundenrabatt und einmal 30 % Neukundenrabatt!“

Verknüpfung im ganzheitlichen Ansatz

Abhilfe schafft hier ein ganzheitlicher Ansatz mit den Teilprozessen

  • Data Profiling,
  • Data Cleansing und
  • Monitoring.

Das Data Profiling gibt nicht nur Aufschluss darüber, welche Datentypen in einer Kundendatenbank vorhanden sind, sondern lässt auch erkennen, wie valide und gebräuchlich diese Daten sind. Beim Data Cleansing werden die erkannten Probleme durch Anwendung verschiedener Algorithmen direkt behoben. Um dem ganzheitlichen Ansatz zur Qualitätssteigerung Rechnung zu tragen, bedarf es schließlich einer kontinuierlichen Überprüfung der Konsistenz, Korrektheit und Zuverlässigkeit der Daten. Neue Daten werden deshalb im Teilprozess Monitoring vor der Speicherung in den operativen und analytischen Systemen überprüft. Und in bestimmten Zeitabständen findet eine Prüfung der gesamten Kundendaten statt.

Holger Wandt.jpg

Holger Wandt (geb. 1963) ist seit 1991 für das Software­unternehmen Human Inference tätig. Als Sprach­wissen­schaftler hat er viele Jahre an der Erfassung, Pflege und Qualität des Wissens gearbeitet, das die Produkte von Human Inference auszeichnet. In seiner heutigen Position als Principal Advisor ist er verantwortlich für alle wissens­bezogenen Fragen zur Daten­qualität. Daneben ist er als Experte zuständig für alle Aspekte der Standardisierung von Namen und Adressen auf nationaler und inter­nationaler Ebene. Holger Wandt ist darüber hinaus Studien­leiter der Master­class Data Quality Management an der Wirtschafts­universität Nyenrode, Dozent an der linguistischen Fakultät der Universität Utrecht sowie Studien­leiter und Dozent der Meister­klasse Daten­qualitäts­management, die an der Universität St. Gallen stattfindet.


Human Inference Deutschland, Fritz-Vomfelde-Straße 34–38, 40547 Düsseldorf, Tel.: 0211-522815-0

Da eine manuelle Bereinigung großer Datenmengen nicht in effizienter Weise durchgeführt werden kann, ist der Einsatz von Data-Cleansing-Werkzeugen zu empfehlen. Mit ihrer Hilfe kann teilweise auch der Prozess der Datenintegration automatisiert werden.

Bei der Zusammenführung gleicher Datenbestände aus unterschiedlichen Datenquellen müssen diese Datensätze zunächst identifiziert werden. Dann ist zu entscheiden, welche Bestandteile der Dubletten in den bereinigten Datenbestand übernommen werden sollen. Denn ganz gleich, woher die Daten stammen – ob von CRM-Anwendungen, von Callcenter Agents oder externen Datenlieferanten – weisen diese Quellen regelmäßig große Unterschiede in Inhalt, Format sowie in ihrer syntaktischen und semantischen Gültigkeit auf. Dazu können die Daten noch unvollständig, ungenau oder veraltet sein oder in anderer Weise abweichen. Und es besteht zudem die Gefahr der ungewollten mehrfachen Aufnahme.

Menschliches Wissen ist gefragt

Um Dubletten in großen Kundendatenbanken zu bereinigen, versprechen vor allem jene Verfahren Erfolg, die computergestützte Schlussfolgerungen mit der menschlichen Intelligenz kombinieren. Denn wenn angesichts der zunehmenden Globalisierung Namen unterschiedlichster Nationalitäten Einzug in Kundendatenbanken halten, stoßen die üblichen mathematischen Prozeduren zur Dublettenerkennung und Adressvalidierung schnell an ihre Grenzen. Dies gilt auch, wenn weltweit operierende Konzerne es bei ihren Adressdaten mit verschiedenen landesspezifischen Schreibweisen zu tun haben.

Um hier „saubere“ Daten zu bekommen, ist länderspezifisches Wissen gefragt. Es muss z.B. nationale Besonderheiten der Adressierung, der Namen und der Schreibweisen berücksichtigen. Neben den herkömmlichen mathematischen Verfahren kommen deshalb in der Datenqualitätssoftware zunehmend auch wissensbasierte Methoden zum Einsatz, die Einsichten der Computerlinguistik zur Spracherkennung und -synthese anwenden. Im Ergebnis wird eine deutlich höhere Erkennungsquote von Dubletten erreicht – über Länder- und Sprachgrenzen hinweg.

Herausforderung Firmenadressen

Wie viele Unternehmen und Gewerbetreibende gibt es in Deutschland? Die Schufa geht von rund 4 Mio. wirtschaftsaktiven Unternehmen und Gewerbetreibenden aus. Dabei stützt sie sich auf eigene Analysen und Informationen aus der Schufa-Unternehmensdatenbank. Die Erfahrung bei dem Auskunftsdienstleister: Eine Suche nach Adressen und die Bereinigung von Dubletten gestaltet sich bei Firmen noch komplexer als bei Personenadressen. Mathematische, phonetische und statistische Vergleichsverfahren reichen hier nur bedingt aus, um korrekte Daten zu gewinnen. Neben dem Einsatz herkömmlicher Algorithmen kann eine Zerlegung und Interpretation der Firmenbezeichnungen für eine hohe Treffsicherheit sorgen und die automatische Verarbeitung vereinfachen.

Durch morphologische Analysen und Interpretationen lassen sich unterschiedliche Schreibweisen von Namen und Bezeichnungen auf eine linguistische Grundform reduzieren, sodass sie dann als eventuell inhaltlich identisch erkannt werden können. Durch die linguistische Interpretation und unterschiedliche Gewichtung einzelner Namensbestandteile wie etwa Rechtsformen oder Vor- und Nachnamen können geeignete Matching- und Bewertungsmodelle entwickelt werden. Diese erzielen dann höhere Trefferquoten, als mit herkömmlichen Verfahren möglich sind.

Für das Datenmanagement von Gewerbekunden werden aufgrund der größeren Komplexität und der permanenten Veränderungen von Unternehmensdaten andere Ansätze und Tools als bei Endverbrauchern benötigt. Eine hohe Trefferquote erreicht man am besten durch den Einsatz von Suchtechnologien, die auch linguistische und kulturspezifische Besonderheiten erkennen und entsprechend gewichten können. Das bewährt sich vor allem dann, wenn ein Unternehmen internationale Kunden bedient.

Denn aufgrund unterschiedlicher Rechtschreibung und Aussprache, durch Abkürzungen, Akronyme, Ähnlichkeiten (z.B. Beecham und Beauchamp), Morphologie (z.B. Vandamme und Van Damme) oder Wortreihenfolgen (z.B. Chong Bung Li und Li Bung Chong) kann ein kennzeichnendes Namenselement in unterschiedlichen Schreibweisen auftreten. Um diese Übereinstimmungen dennoch zuverlässig herauszufiltern, setzen moderne Datenqualitätslösungen verschiedene Verfahren ein, z.B. Wortbilder, Trigramme, exakte Zeichenfolgen, Akronyme, Schlüsselwörter, Matrix und Phonologie.

Fazit: Sauber erfassen, sauber bleiben

Angesichts dieser komplexen Problemstellung braucht die Gewährleistung einer hohen Datenqualität einige Zeit. Ziel ist deshalb meist nicht eine sofortige Komplettbereinigung sämtlicher vorhandenen Kundendaten, sondern vor allem eine stetige Verbesserung und die Vermeidung von Dubletten direkt bei der Datenerfassung, nach dem Prinzip, am besten beim ersten Mal gleich alles richtig zu machen („First Time Right“). Zusätzlich werden die Daten – falls nötig – mit Hilfe der eingesetzten Lösung direkt korrigiert, vervollständigt und standardisiert.

Nützliche Links