>b's weblog

News. Journal. Whatever.

Was war. Was wird. Von guten Leben in faktischer Quarantäne.Neues von der Kinderfickerfront: Sexueller Missbrauch, Gewalt und Prostitution im katholischen Jugendheim

Der Geist aus der Flasche – warum es technisch keine “Anonymisierung von Daten” geben kann

Eine der Hauptaufgaben von Kryptographie ist es, Vertraulichkeit von Informationen zu gewährleisten. Wenn Alice eine Nachricht an Bob schickt, dann möchten Alice und Bob nicht, dass Dritte vom Inhalt dieser Nachricht erfahren. In Netzwerken, die anonymisieren, wie beispielsweise Tor, möchten Alice und Bob nicht, dass die Information Dritten bekannt wird, dass es Alice und Bob sind, die hier Nachrichten austauschen. In solchen Fällen können kryptographische Systeme Alice und Bob dabei unterstüzten, dass sie den gewünschten Grad an Vertraulichkeit für ihre Kommunikation auch erreichen.

Kryptographische Systeme können solche Vertraulichkeit jedoch nicht nachträglich über eine bereits gelaufene unverschlüsselte Kommunikation “drüberstülpen”. Sondern die Kommunikation muss von Anfang an immer verschlüsselt laufen, ansonsten sind die Informationen, die Alice und Bob vertraulich halten wollten, bereits geleakt. Danach noch mit dem Ziel zu verschlüsseln, Vertraulichkeit wieder zu gewinnen, ist sinnlos: man kriegt den Geist nicht mehr in die Flasche. Ist etwas einmal bekannt geworden, kann man nicht die Gedächtnisse derer nachträglich löschen, die es mitgekriegt haben.

Entsprechend sieht es auch mit dem “Anonymisieren von Daten” aus: ist einmal bekannt geworden, wer mit den Informationen gemeint ist, die in Datensätzen kodiert sind, so kann man diese Information nicht mehr zurück nehmen. Man bekommt den Geist nicht mehr in die Flasche zurück. Deshalb ist das einzige, was man machen kann, wenn man nicht will, dass Informationen bekannt werden, diese geheim zu halten. Und das bedeutet, man stellt entweder von vornherein keine Daten mit diesen Informationen zur Verfügung (Datensparsamkeit), oder man sorgt mittels Aggregation dafür, dass z.B. nur summarische oder Durchschnittswerte über eine Grundgesamtheit erfasst werden – wobei man hier aufpassen muss wie ein Fuchs, denn wenn man nach verschiedenen Dimensionen unterschiedlich aggregiert, dann lassen sich über Korrelationsangriffe Rückschlüsse auf einzelne Datenwerte ziehen.

Die einzig sichere Möglichkeit besteht also darin, nur Daten mit Informationen zu erzeugen und zu kommunizieren, die auch an den Adressaten kommuniziert werden sollen – und sie von vornherein diesem Adressaten verschlüsselt zuzustellen. Und entsprechend kann es kein nachträgliches “Anonymisieren von Daten” technisch geben. Es funktioniert prinzipiell nicht.

In vielen Anwendungen ist es jedoch nicht einmal erwünscht, dass Personen anonym bleiben. Beispielsweise in der heute viel diskutierten Corona-App besteht das Ziel ja gerade darin, Menschen zu identifizieren und zu informieren, mit denen man Kontakt hatte. Und entsprechend kann es kein Anonymisierungsverfahren geben, was diese Anforderungen erfüllt, denn das wäre ein Zielkonflikt: man kann nicht beides haben.

Was man bei der Corona-App machen könnte, wäre, sich ein kryptographisches Verfahren auszudenken, das gewährleistet, dass nur diejenigen nur die gewünschten Informationen bekommen, die sie auch erhalten sollen. Eine Identifikation der beteiligten Personen zumindest mit lokalen Pseudonymen ist notwendig – mit Nummern also, die man den jeweils anderen zuordnet, um sie unterscheiden zu können.

Will man nun Personen nachträglich informieren aus dem Kreis derer, in deren Nähe man war (und darum geht es wegen der Ansteckungsgefahr ja gerade), so benötigt man eine Möglichkeit, mit diesen Personen nachträglich vertraulich zu kommunizieren. Eine Lösung wäre es demnach beispielsweise, wenn man von all diesen Personen dann bereits einen öffentlichen Schlüssel gesammelt hätte, so dass man mittels asymmetrischer Kryptographie so öffentlich kommunizieren kann, dass nur die gewünschten Personen die Kommunikation entschlüsseln können. Dabei muss man noch dafür sorgen, dass die Information “wer mit wem” nicht leakt – z.B., indem man die Kommunikationsplattform als Tor Hidden Service anbietet, um alle Teilnehmer zu zwingen, Tor einzusetzen.

Sprich: würde man mittels der geplanten Bluetooth-Beacons öffentliche Schlüssel austauschen und dann über Tor kommunizieren, könnte die Zieldefinition erreicht werden. Fraglich bleibt, wie sinnvoll das ganze überhaupt ist. Denn die Nutzung einer solchen Plattform durch alle Nutzer muss auch erst einmal vollständig gegeben sein, sonst werden nie genügend Leute informiert. Das Konzept Corona-App ist aus ganz anderen Gründen ja auch noch sehr fraglich.