Die zunehmende Bedeutung von Big Data in Wirtschaft und Forschung hat zur Folge, dass Statistiker und Mathematiker auf dem Arbeitsmarkt immer stärker gefragt sind. Die britische Royal Statistical Society warnte bereits im Juli letzten Jahres vor einer drohenden Knappheit an Fachkräften, die in der Lage sind, in großen Datenmengen den wirtschaftlichen Nutzen zu erkennen. Neue Forschungsansätze, wie sie ein aktueller Technology-Review-Beitrag beschreibt, beschäftigen sich daher mit der Frage, ob es möglich ist, die Aufgaben eines Statistikers von Computerprogrammen erledigen zu lassen.
Das Ziel besteht darin, eine Software zu entwickeln, die aus Rohdaten lesbare Berichte generiert, also in Worten und Diagrammen die in den Daten verborgenen Trends beschreibt. Zoubin Ghahramani, Professor für Information Engineering an der University of Cambridge, stellte kürzlich ein solches System vor, das bereits interessante Ergebnisse liefert. So konnte es z.B. aus den Daten des Flugverkehrs aus einem Jahrzehnt einen automatisierten Bericht destillieren, der nicht nur mathematische Erklärungen für erkannte Tendenzen liefert, sondern auch Prognosen für die Zukunft erlaubt.
Dennoch wird es vermutlich immer erforderlich sein, dass ein menschlicher Statistiker die letzte Auswertung vornimmt. So erkannte die Software zwar, dass der Flugverkehr in den Sommermonaten regelmäßig zunimmt, konnte jedoch nicht richtige Erklärung dafür liefern (nämlich die Urlaubsreisen in der Ferienzeit). Außer Frage steht jedoch, dass der Computerstatistiker eine große Hilfe für die Arbeit mit den Daten darstellt.
Prof. Ghahramani will sein System weiter verbessern und denkt auch über eine kommerzielle Version nach. Damit würde seine Software zur Konkurrenz für das amerikanische Start-up-Unternehmen Skytree, das vor einigen Wochen ein Produkt vorstellte, das laut Angaben der Firma automatisch das beste Modell zur Erklärung einer Datensammlung auswählen kann. Auch das amerikanische Unternehmen Narrative Science ist in diesem Umfeld tätig und arbeitet an einem Produkt, das numerische Daten in natürliche Sprache umsetzt.