Deep Learning mit Ihren Daten – oder ohne
Von Axel Oppermann
Mit der Keynote auf der WWDC 2016 hat Apple ein Schlagwort in Umlauf gebracht, mit dem bisher nur gestandene Kryptografie-Kenner etwas anfangen konnten: Differential Privacy. Denn das neue iOS 10 soll mehr Nutzerdaten sammeln, aber offenbar keine persönlichen Daten. Wie soll das gehen?
Was ist Differential Privacy?
Frei nach Henry Ford fragt heute niemand mehr den Kutscher, ob er schnellere Pferde will. Heutzutage analysiert man einfach persönliche Nutzerdaten. Das lässt sich in der digitalen Welt am besten bewerkstelligen, indem man das Nutzungsverhalten auswertet. Für solche Auswertungen müssen Daten gesammelt werden.
Nun ist es aber einmal so, dass man durch das Sammeln von anonymen Daten in der Regel weniger aussagekräftige Resultate erhält. Deshalb müssen personalisierte Daten erhoben werden. Das wiederum treibt die Nutzer auf die Barrikaden, selbst solche, die sich zuvor nicht sonderlich für Datenschutz interessiert haben. Kurzum: Privacy ist ein Thema.
Es gibt allerdings ein Konzept, bei der Verarbeitung von Daten die Privatsphäre des Einzelnen zu bewahren; es ist bereits seit Längerem bekannt und wird als Differential Privacy bezeichnet. Es geht dabei darum, so viel wie möglich über eine Zielgruppe zu lernen, andererseits aber nichts über eine einzelne Person zu erfahren. Das Privacy-Versprechen besteht darin, dass die gesammelten Daten auf eine andere Art und Weise ausgewertet werden, sodass die Privatsphäre gewahrt bleibt – immer vorausgesetzt, dass die Daten nicht weitervermittelt oder gar veröffentlicht werden.
Kleines ɛ heißt größere Privatsphäre
Zunächst ist generell eher unklar, wie Privatsphäre überhaupt definiert sein soll. So könnte man meinen, dass sie bereits durch die bloße Datenerhebung verletzt wird. Genau hier liegt auch der Schlüssel zum Verständnis von Differential Privacy (DP): Stellen Sie sich eine Studie oder Datenerhebung vor – und daneben eine zweite, die absolut identisch ist, bis auf einen einzigen Umstand: An der einen Datenerhebung haben Sie teilgenommen, an der anderen nicht. In der einen stecken also Ihre privaten Daten, in der anderen nicht. Sonst sind die Datenbestände, wie gesagt, ganz gleich. Das Versprechen von Differential Privacy besteht nun darin, dass es bei DP-Verfahren egal ist, welche der beiden Erhebungen die Analyse sich vornimmt. Die Ergebnisse einzelner Abfragen sollen dieselben sein.
Insbesondere wird hierbei auch abgesichert, dass das Auftreten jeder Reihe von Ergebnissen, also die Ergebnisse mehrerer Studien basierend auf verschiedenen Teilmengen derselben Grundmenge, im Grunde gleich wahrscheinlich ist, unabhängig von der Teilnahme eines Individuums. Die Wahrscheinlichkeiten werden nämlich aus zufällig ausgewählten Teilmengen bestimmt und die Aussage „im Grunde gleich wahrscheinlich“ wird durch einen Parameter ɛ beschrieben. Desto kleiner ɛ ist, desto besser wird die Privatsphäre bewahrt.
Weiter sollte auch festgehalten werden, dass Differential Privacy eine Risikodefinition und kein Algorithmus ist. Aber natürlich werden die gesammelten Daten mithilfe von Algorithmen ausgewertet. Für diesen Kontext benutzte Algorithmen sollten also die Eigenschaft haben, dass sie die Privatsphäre schützen. Dabei soll außerdem angenommen werden, dass sich die gesammelten Daten in einer sicheren Datenbank D befinden.
Im Grunde gibt es viele solche Algorithmen, die sich aber in der Genauigkeit der Geheimhaltung ɛ unterscheiden. Für eine gegebene Aufgabe T und eine gegebene Geheimhaltungsquote ɛ gibt es dann eine Vielzahl von Algorithmen um die Aufgabe T umzusetzen, wovon manche eine bessere Genauigkeit haben als andere. Für ein sehr kleines ɛ, kann es jedoch schwierig sein, einen passenden Algorithmus zu finden, der zudem noch sehr genaue Ergebnisse liefert.
Scoring mit Differential Privacy
Differential Privacy heißt nicht, dass alles gut ist. Welche Schlüsse ein Unternehmen aus den Analyseabfragen zieht, ist eine ganz andere Sache. Angenommen, es werden Alter, Geschlecht, Partner, Kinder, Qualifikation und Erwerbstätigkeit einer Zielgruppe erhoben, natürlich auf Basis eines jeden Individuums. Das Ergebnis ist: „Menschen mit geringem Einkommen sind häufiger krank.“ Die Wirkung dieses Ergebnisses könnte sein, dass Versicherungen ihre Beitragssätze anpassen, sodass Personen mit einem geringen Einkommen einen höheren Beitrag entrichten müssen. Durch das Ergebnis der Studie wären Teilnehmer mit niedrigem Einkommen also unmittelbar betroffen.
Andererseits ist es aber wichtig festzuhalten, dass in diesem Beispiel keine individuellen Informationen veröffentlicht wurden. Höhere Beitragssätze würden allein dadurch zustande kommen, dass Versicherungen Informationen über das Einkommensverhältnis jedes Versicherten besitzen. Das DP-Prinzip bedeutet gerade, dass das Ergebnis der Studie zustande kommt, ohne persönliche Daten der Teilnehmer preiszugeben. Welche Auswirkungen aber das Gesamtergebnis auf ein Individuum hat, hat nichts mit Differential Privacy zu tun.
Abfragen nach genau bekanntem Rauschen
Damit man sich das Vorgehen eines DP-Verfahrens vorstellen kann, wollen wir annehmen, dass es eine vertrauensvolle Person gibt, die die sichere Datenbank D verwaltet. Zunächst werden die erhobenen personalisierten Daten in die Datenbank D eingespielt, wobei jede Reihe in der Datenbank die Daten einer einzelnen Person enthält. Das Ziel ist es, jede einzelne Reihe zu schützen, während eine statistische Auswertung auf die gesamte Datenbank angewandt wird.
Dazu wird im Offline- bzw. Überwachungsmodus ein Objekt von der Datenbank erstellt, also eine Art „synthetische Datenbank“. Diese synthetische Datenbank entsteht durch Verfremden der Originaldaten; dies geschieht nur einmalig und danach nie wieder. Nachdem die synthetische Datenbank erstellt wurde, können die Originaldaten gelöscht werden.
Nachfolgend werden verschiedene Abfragen an das nun interaktive Modell gestellt. Die Abfragen werden automatisch angepasst, je nachdem, welches Resultat die Daten aufgrund der vorherigen Abfrage lieferten. Falls alle Abfragen im Voraus bekannt sind, sollte das interaktive Modell die beste Genauigkeit liefern, da es dann in der Lage ist, Störungen zu korrelieren. Ist allerdings im Vornherein nicht klar, welche Abfragen an das Modell gestellt werden sollen, so steht das interaktive Modell vor einer Herausforderung. Schließlich müssen dann alle möglichen Fragen beantwortet werden. Um die Privatsphäre zu beschützen, also die Geheimhaltungsquote ɛ zu erfüllen, lässt sich dann beobachten, dass sich die Genauigkeit verschlechtert, je mehr Abfragen ausgeführt werden müssen.
Die Abfragen werden von einem sogenannten Privatsphäre-Mechanismus ausgeführt. Dieser bekommt als Eingabe die Datenbank, einige zufällige Bits und optional eine Reihe von Abfragen. Der Mechanismus erzeugt dann eine Ausgabezeichenfolge. Die Hoffnung ist, dass diese Ausgabezeichenfolge decodiert werden kann, um eine relativ genaue Antwort auf die Fragen zu erhalten. Falls im Vornherein keine Abfragen in den Mechanismus übergeben wurden, so ist die Hoffnung, dass die Ausgabezeichenfolge interpretiert werden kann, um zukünftige Abfragen zu beantworten.
Es ist also deutlich, dass die Umsetzung von Differential Privacy recht kompliziert sein kann. Im Hinblick auf persönliche Daten kann man aber ziemlich sicher sein, dass keine individuellen Daten nach außen dringen, sofern alles richtig implementiert wurde. Dabei kommt es natürlich auch auf den Schutz der Datenbank vor Löschung der Originaldaten an.
Noch einmal: Datenschutz und die Risiken
Es gibt natürlich auch einige andere Ansätze, um die Privatsphäre zu schützen. Und es gibt einige Bedenken.
Eine kritische These ist zum Beispiel, dass Daten nicht gleichzeitig völlig anonymisiert und nützlich sein können. Gemeinhin gelten schließlich detailliertere Daten als interessanter und nützlicher. Das führt dazu, dass die Daten mitsamt persönlichen Informationen ausgewertet werden und individuelle Informationen erst im Nachhinein gelöscht werden. Hierbei ist es allerdings möglich, eine individuelle, anonyme Person aufgrund der ihr zugeordneten Daten zu bestimmen. Dieses Ergebnis kann wiederum dazu benutzt werden, die anonymisierten Daten mit nicht-anonymisierten Daten abzugleichen.
Ein weiterer Kritikpunkt ist die Behauptung, dass sogenannte zusammengefasste Ergebnisse nicht sicher sind. Auch hier können Rekonstruierungsangriffe in solchen Datenbanken, in denen jedes Individuum einen eigenen geheimen Schlüssel besitzt, gestartet werden. Deren Ziel ist es, Anfragen an die Datenbank, wie zum Beispiel „Wie viele Personen erfüllen Bedingung P und haben den geheimen Schlüssel 1?“, zu stellen. Durch diese Abfrage wird die Chance erhöht, die geheimen Schlüssel von Individuen zu bestimmen.
Differential Privacy hat hier den Vorteil, dass das Zurückführen auf die Originaldaten nicht möglich ist. Das liegt daran, dass die vorliegenden Daten nicht anonymisiert, sondern wirklich verändert werden, und zwar bevor auch nur eine statistische Auswertung durchgeführt wird. Dadurch lässt sich später mit mathematischer Gewissheit sagen, dass die Daten eine Geheimhaltungsquote von ɛ erfüllen. Je kleiner ɛ, desto sicherer sind die Daten.
Wie die Daten zu Beginn genau verfremdet werden, lässt sich nicht so leicht beantworten. So hat auch Apple über diesen Punkt bisher noch keine Aussage getroffen. Durch das Hinzufügen eines „Rauschens“ (einer Art Störung) in die Daten ist es aber in jedem Fall möglich, die Daten zu verfremden und gleichzeitig die gewünschten Eigenschaften zu behalten. Die gestörten Daten werden dann in neuen Einträgen gespeichert. Um den Voraussetzungen für Differential Privacy zu genügen, müssen die gestörten und die Originaldaten aber dieselben Ergebnisse liefern.
Das Rauschen wiederum ist abhängig von der Anzahl der Abfragen. Denn auch eine DP-Datenbank verrät desto mehr, je mehr Anfragen erlaubt sind. Sind viele Anfragen geplant, braucht man mehr Rauschen, um den Privacy-Wert ɛ niedrig zu halten. Mehr Rauschen bedeutet aber auch weniger Ergebnisgenauigkeit.
Sollten andere Unternehmen dem Beispiel folgen?
Theoretisch ist es nicht nur für Größen wie Apple, Google, Microsoft, Facebook machbar, statistische Auswertungen unter Beachtung von Differential Privacy durchzuführen, sondern auch für andere, große oder kleine Unternehmen. Die Theorie hinter diesem Konzept ist für jeden zugänglich, und es existiert bereits eine Vielzahl konkreter Algorithmen. Diese beziehen sich zwar auf spezielle Fallstudien, Anpassungen sind aber gleichwohl möglich. Natürlich sollten die oben beschriebenen Schritte beachtet werden.
Bei dem Verfremden der Daten kann dabei auch auf relativ einfache Ansätze zurückgegriffen werden. Der einfachste Ansatz ist dabei, die Anzahl der verschiedenen Datensätze zu bestimmen und sie mithilfe der Laplace-Verteilung in Verbindung mit dem Parameter 1/ɛ zu verschieben. Aufgrund der Eigenschaften der Laplace-Verteilung sind dann auch die Eigenschaften von Differential Privacy mit ɛ-Privatsphäre gewährleistet. Ein Algorithmus, der die statistischen Auswertungen durchführt, müsste schließlich noch an das jeweilige Problem angepasst werden. Durch das konsequente Einhalten der Voraussetzungen lässt sich aber die Privatsphäre von Nutzerdaten bewahren.
Andererseits sollte auch beachten werden, dass der Aufwand der Implementierung eines solchen Verfahrens groß ist. Das Verfahren liefert zwar gute Ergebnisse und bewahrt zudem noch die Privatsphäre, im Allgemeinen sollte die Anzahl der Datensätze aber so umfangreich sein, dass auch eine statistische Aussagekraft gewährleistet werden kann. Des Weiteren braucht man eine Menge Ressourcen, um das Verfahren zu implementieren. Deshalb sollte der zu erwartende Nutzen stets größer sein als die Kosten für die Entwicklung oder einen Dienstleister.
Axel Oppermann berät seit über 17 Jahren als IT-Marktanalyst Technologieunternehmen in Strategie- und Marketing-Fragen. Er arbeitet beim Beratungs- und Analystenhaus Avispador, schreibt für diverse Blogs, Portale, Fachzeitschriften und kommentiert in diversen Bewegtbildformaten aktuelle Themen sowie den Markt. Als Gesprächspartner für Journalisten und Innovatoren bringt Axel erfrischend neue Ansichten über das Geschehen der digITal-Industrie in die Diskussion ein. Seine vielfältigen Erkenntnisse gibt Axel in seinen kontroversen, aber immer humorvollen Vorträgen, Seminaren, Workshops und Trainings weiter. Seine Themen: Digital & darüber hinaus.
Fazit: Bezifferte Sicherheit ist derzeit das Beste
Insgesamt lässt sich also zusammenfassen, dass es durchaus einige Ansätze gibt, um persönliche Nutzerdaten geheim zu halten. Mit dem DP-Prinzip kann genau berechnet werden, wie sicher ein Algorithmus ist. Das ist momentan der große Vorteil gegenüber anderen Ansätzen, bei denen sich beispielsweise anonymisierte Daten auf die Ursprungsdaten zurückführen lassen. Ein Differential-Privacy-Algorithmus ist die bessere Wahl. Dennoch sollte man zunächst abwägen, ob sich der Aufwand zur Umsetzung eines solchen Verfahrens lohnt.
Nützliche Links
Eine gute, aktuelle und ausführliche, aber englischsprachige DP-Erklärung gibt Matthew Green auf blog.cryptographyengineering.com.