Was ist das Problem mit Big Data?

Mein heutiges Highlight der re:publica war gleichzeitig einer der ersten Vorträge des Tages. Der Titel: „Freiheit und Vorhersage: Über die ethischen Grenzen von Big Data“, der Redner: Viktor Mayer-Schönberger, seines Zeichens Professor für Internet Governance and Regulation an der Oxford University. Was seinen Vortrag neben einer tollen Didaktik so wertvoll machte war, dass er die Tragweite der momentanen Entwicklung digitaler Daten auch für „normale Menschen“ greifbar machte.

Begriffe wie „Big Data“ sind modern und in aller Munde. Sales-Abteilungen von Amazon und Google (und vielen CRM-Anbietern) wittern darin große Chancen, noch gezielter auf den Kunden eingehen zu können. Mediziner sehen in Big Data die Möglichkeit, mit Hilfe des Webs die Verbreitung von Seuchen vorherzusagen, Kriminologen und Geheimdienste sind sich sicher, damit wirksam Verbrechen zu bekämpfen und Datenschutz-Aktivisten sehen darin den Untergang des Abendlandes. Aber was hat es denn mit Big Data überhaupt auf sich?

Mayer-Schönerberger zeigt zu Beginn seines Vortrages eine Grafik die zeigt, 1987 waren 0,2 Prozent aller Daten digital verfügbar, der Rest war analog. Heute hat sich dieses Verhältnis umgekehrt und nur noch 1 Prozent aller Daten ist analog, der Rest wird digital gespeichert. Entwicklung exponentiell steigend. Aber spielt die schiere Masse der Daten alleine eine Rolle? Mayer-Schöneberger sagt ganz klar ja, und unterstreicht dies an eindrucksvollen Beispielen.

Wahrscheinlichkeiten statt Verstehen

Während des kalten Krieges stand man in den USA vor der Herausforderung, große Mengen abgefangener Kommunikation in russischer Sprache ins Englische übersetzen zu wollen. Der einfachste Weg wäre sicherlich das Einstellen von mehr Übersetzern gewesen, doch man ließ sich auf ein Experiment ein. Man versuchte anhand von Sprachregeln und Wörterbüchern eine Übersetzungssoftware zu entwickeln, deren Algorithmus Übersetzer in wenigen Monaten überflüssig machen sollte. 13 Jahre und eine Milliarde Dollar später wurde das Projekt schließlich eingestampft und aufgegeben.

In den 80er Jahren widmete sich IBM demselben Problem, aber nur auf Basis von statistischen Daten. Sprich, man schaute bei Texten, welche in verschiedenen Sprachen vorhanden waren, mit welcher Wahrscheinlichkeit Begriffe auf eine bestimmte Art übersetzt wurden. Als Basis dienten zu Beginn die Dokumente des kanadischen Parlamentes, welche alle in Englisch und Französisch vorlagen. Später kamen u.a. noch die Veröffentlichungen der EU-Institutionen hinzu. Das Ergebnis war zwar nicht perfekt, aber signifikant besser, als das der US-Geheimdienste in den 50ern. Google hat dieses Konzept in den letzten Jahren auf die Spitze getrieben und auf Basis des gesamten WWW die Software Google Translate entwickelt. Es geht also gar nicht mehr um Verstehen, sondern ausschließlich Wahrscheinlichkeiten. Der Tenor ist seit dem immer der Gleiche:

Nicht der Algorithmus ist entscheidend, sondern die Masse an Daten als Grundlage!

Warum? Die unglaubliche Datenmenge gleicht die Unschärfe aus. Das Ergebnis aus reinen Korrelationen wird von Tag zu Tag treffsicherer. Während IBM zusätzlich noch auf die Verbesserung des Algorithmus setzte, hat der deutsche Leiter der Research-Abteilung bei Google, Franz Joseph Och, einzig und allein das Datensammeln zur Priorität gemacht - und war damit um Längen erfolgreicher.

Exakt die gleichen Mechanismen greifen jedoch auch in der Überwachung von Menschen. Nur äußerst selten sind beispielsweise die Geheimdienste an speziell unseren Daten interessiert. Keiner will unbedingt wissen, worüber ich im Detail gestern mit meiner Mutter telefoniert habe. Aber ich liefere, wie jeder von uns, das Datenmaterial, welches es benötigt, um belastbare Aussagen treffen zu können. Um die kleinen Peaks in der Kurve überhaupt als solche wahrzunehmen. Und wenn man den Phantasien dieser Dienste und Behörden folgt, auch um damit Verbrechen bereits im Vorhinein antizipieren zu können.

Aber ist das schlecht? Ist Prävention nicht immer besser als Reaktion? Nein, sagt Mayer-Schöneberger ganz deutlich, nicht immer. Denn hier wird auf eine perfide Weise die Unschuldsvermutung abgeschafft. Wenn, wie in den USA zum Teil schon real, Menschen auf Grund von Wahrscheinlichkeiten verhaftet werden, weil sie der berechneten Annahme nach in den nächsten Stunden ein Verbrechen begehen werden, so haben diese Personen gar nicht mehr die Chance darauf, sich gegen dieses Verbrechen zu entscheiden. Das wäre das Ende des freien Willens, von Handlungs- und Entscheidungsfreiheit. Zudem kommt es, auch bei hohen Wahrscheinlichkeiten, immer zu Fehlern (wer einmal versucht hat mit Google Translate einen Text zu übersetzen weiß das). Diese Fehler bekommen Menschen immer wieder zu spüren.

Wie zwei Punkte einen verdächtig machen können

Mir selbst fiel dazu spontan das Beispiel des „Südanflugs“ ein. Der Illustrator Felix Schaad hatte ein Comic mit diesem Titel gezeichnet und dem Kunden in Rechnung gestellt. Die Online-Überweisung hatte jedoch beim gleichnamigen Verwendungszweck die Umlaute gestrichen und so wurde aus dem Südanflug ein Geldtransfer für einen Sudanflug und man erhob den „Verdacht auf terroristische Aktivitäten“. Schaad konnte seinen Fall glücklicherweise schnell widerlegen, doch das gilt längst nicht für jeden. Mayer-Schöneberger hatte beispielsweise zu Beginn seines Vortrages auf den kanadischen Psychotherapeuten Andrew Feldmar hingewiesen. Da Feldmar u.a. zu den bewusstseinsverändernden Einflüssen von LSD forschte, wurde sein Name im Netz sehr häufig im Zusammenhang mit der Droge gefunden und damit als verdächtig eingestuft. Auf Basis des Homeland Security Acts verweigerte man ihm deshalb die Einreise in die USA - lebenslang.

Mayer-Schöneberger forderte deshalb am Ende seines Vortrages nicht nur die Chance auf Vergessen im Netz, sondern ermutigte das Publikum, die Kontrolle über die eigenen Daten einzufordern. Inwieweit er das als machbar einschätzte, oder ob die Geister die Flasche längst verlassen haben, ließ er leider offen. Trotzdem wurde in diesem Vortrag die Qualität als „Übersetzer“ von Mayer-Schönerberger deutlich. Er ist in der Lage, auf scheinbar naive Fragen, plastische Antworten zu geben und damit Zusammenhänge herzustellen, die in der Überwachungsdebatte viel zu selten greifbar werden. Wir sind als Gesellschaft gerade im Begriff, die Büchse der Pandora zu öffnen.