« Liberty Food | Main | Wenn die Wörter auswandern »
Der AOL-Corpus oder: GAU mit Suchanfragen

Bericht der NY Times über eine Person, die trotz der Anoymisierung von veröffentlichten Suchanfragen gefunden werden konnte
Seit einigen Tagen berichten Blogs und Nachrichtenredaktionen über AOLs großes Missgeschick beim Umgang mit sensiblen Daten. Der abgehalfterte Online-Dienst hatte ca. 20 Millionen Suchanfragen von ca. 650.000 amerikanischen AOL-Nutzern über einen Zeitraum von 3 Monaten gesammelt. Diese Sammlung wurde in einem speziellen Research-Bereich auf die Firmenwebseite gestellt. An sich keine schlechte Idee und neben der nun wieder entfernten Super-Sammlung gab es bei den Test Collections auch noch andere Zusammenstellungen (der Link ist nicht mehr oder nur eingeschränkt zu erreichen). Für Marketingspezialisten, Webseitenoptimierer oder Linguisten durchaus ein gutes Angebot. So konnte z.B. eine Sammlung mit Anfragen, die mit einem englischen Fragewort formuliert wurden, geladen werden. Dabei waren die Zusammenstellungen aber auf die reinen Anfragen reduziert.
Bei der Bereitstellung des Großkonvoluts an Daten ging AOL nun aber leider sehr unsensibel vor. Zwar wurden die Nutzer(Identitäten) vermutlich automatisiert durch einfache Zahlenfolgen anonymisiert, aber darauf scheint es sich dann auch schon begrenzt zu haben. Es lassen sich nun nicht nur ziemlich viele exemplarische Detail-Profile zu Nutzertypen erstellen, die zeigen was, wie und wann von bestimmten Nutzer gesucht und wohin geklickt wurde. Schon das allein ist nicht mehr wirklich harmlos, wenn die Daten so verknüpft werden können. Vor noch nicht allzu langer Zeit weigerte sich Google erfolgreich, 1 Million Datensätze, die ein Ausschnitt aus einer Woche sein sollten, an das amerikanische Justizministerium zu Test- und Analysezwecken zur Verfügung zu stellen. Doch AOL versäumte es, zusätzlich bei der öffentlich gemachten Sammlung mit 20 Millionen Datensätzen diese detailliert zu filtern bzw. zu editieren. Von Nutzern gesuchte Namen, Bankinformationen oder andere persönlich zu zuordnende Informationen blieben in den Suchanfragen erhalten.
Mehreren Berichten zu Folge sollen bereits die ersten Personen aufgrund der eingegebenen Such-Daten identifiziert worden sein. Die New York Times berichtet von einer 62jährigen Dame, die durch Zusammenführen von Daten zu der Anonymisierungs-ID 4417749 ausfindig gemacht werden konnte. Wie viele New Yorker Rechtsanwälte nach Erscheinen dieses Artikels wohl schon bei Thelma Arnold angerufen haben werden, um sie zu einer Schdensersatzklage gegen AOL zu ermuntern?
Die Aufregung um den mangelhaften Datenschutz ist verständlicherweise groß und berechtigt, die Schadenfreude scheint noch größer. intern.de kritisiert dabei zu Recht, dass es schon erstaunlich ist, zum Teil den versäumten Datenschutz einzufordern, andererseits aber hämisch die vor dem Entfernen vom AOL-Server noch rechtzeitig geladene ZIP-Datei nun auf anderen Servern im Netz zum Download bereitzustellen.
Der AOL-Corpus, der so entstanden ist, wird bestimmt noch eine zeitlang Thema bleiben. Jedes Profil, dass über das Zusammenfügen der einzelnen Suchhistorien entsteht, kann eine Geschichte erzählen. Eine der 658.000 möglichen Zusammstellungen zeigt eine Person, die sich laut dem Blog The Paradigm Shift mit dem Mord an der eigenen Ehefrau befasst habe. Der Nutzer mit der von AOL zugewiesenen ID 17556639 hat demnach Suchanfragen wie »how to kill your wife«, »wife killer«, »killed people«, »pictures of dead people« oder »decapatated photos« eingegeben. Das Erschreckende daran ist jedoch nicht der Einzelfall, der hier unter dem Titel »AOL Search Data Shows Users Planning to commit Murder« exemplarisch vorgeführt wird. Wer sich intensiver mit Anfragen bei Suchmaschinen befasst, wird leicht feststellen und dann erst richtig erschrecken, dass solcher Art Anfragen genauso wie solche zu sexuellem Mißbrauch oder zu anderen Gewalttaten viel öfters vorkommen.
Die bereitgestellten Daten sind Anfragen us-amerikanische Nutzer der AOL-Zugangssoftware aus den Monaten März bis Mai 2006. Die Anzahl der Nutzer sollen laut AOL-Auskunft ca. 1,5% der Gesamtnutzer sein, die Anzahl der Anfragen sind etwa 1/3 der Gesamtanfragen aus diesem Zeitraum.
Marmelade aus Mexiko (engl: Jam from Mexico) und Wörter mit doppelt r (engl: Words with double r) sind zwei Ausstellungssprojekte von The Word Company mit Suchanfragen.