Krankendaten gesetzlich Versicherter: Millionen Menschen bald reidentifizierbar?

Die elektronische Patientenakte (ePA) und der geplante European Health Data Space (EHDS) sollen medizinische Informationen europaweit über nationale Kontaktstellen für Forschung und Versorgung nutzbar machen. Die Vision: mehr Wissen über Krankheitsverläufe, bessere Therapien, schnellere Forschung. Dazu werden Daten beim Forschungsdatenzentrum Gesundheit gesammelt, das beim Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) angesiedelt ist. Perspektivisch sollen mehr Daten hinzukommen, beispielsweise aus medizinischen Registern und aus den elektronischen Patientenakten der gesetzlich Versicherten.

Das BfArM arbeitet aktuell mit Forschenden im Rahmen des Projekts „Anonymisierung für medizinische Anwendungen“ (Anomed 2) an mehr Datenschutz. „Ziel des FDZ Gesundheit in diesem Vorhaben ist es, zusammen mit den Projektpartnern innovative Ansätze für eine weiter verbesserte Anonymisierung von Gesundheitsdaten zu entwickeln – unter anderem durch den Einsatz synthetischer Daten und Differential Privacy Verfahren“, heißt es vom BfArM Ende Oktober. Ob erste Unternehmen inzwischen bereits Zugang zu den Forschungsdaten erhalten haben, ist unklar. Eine Frage dazu hat das BfArM bisher noch nicht beantwortet.

Jorge Andresen und Esfandiar Mohammadi vom Institut für IT-Sicherheit der Universität zu Lübeck, die ebenfalls an dem Projekt beteiligt ist, haben untersucht, wie leicht sich aus vermeintlich anonymen Gesundheitsstatistiken wieder individuelle Informationen rekonstruieren lassen. Die beiden haben ihre noch nicht veröffentlichte Studie „Reconstructing Health Data from Published Statistics“ auf der diesjährigen AnoSiDat-Konferenz vorgestellt.

Sie simulierten ein riesiges Gesundheitsdatenset, führten Rekonstruktionsangriffe mit Algorithmen durch – und fanden heraus: Auch aggregierte Daten sind nicht automatisch sicher. Wir haben mit Jorge Andresen über die Hintergründe der Forschung gesprochen.

Ich habe mich gefragt: Was müssen wir tun, damit die Daten sicher bleiben? Kann man sie einfach so verwenden, um einfache Anfragen zu stellen, zum Beispiel: Wie viele Menschen haben Darmkrebs? Wie viele davon haben zusätzlich Lungenkrebs? Das sind ja zunächst nur statistische Zusammenhänge, die nichts über einzelne Personen aussagen. Aber ähnliche Ansätze wurden beim US-Zensus getestet – und dort hat man festgestellt, dass es doch möglich war, Personen aus angeblich anonymen Statistiken zu rekonstruieren. Das will man natürlich vermeiden, besonders bei Gesundheitsdaten.

Wir haben die sogenannte Rap-Rank-Reconstruction-Attack verwendet – ein Angriff, der ursprünglich für den US-Zensus entwickelt wurde. Der Angriff trainiert mehrere KI-Modelle darauf, aus aggregierten Ergebnissen – etwa „48,8 Prozent sind männlich“ oder „40 Prozent der Rauchenden haben Herzerkrankungen“ – wieder einen plausiblen Datensatz zu rekonstruieren. Das ist im Prinzip Puzzlearbeit: Man kennt viele Einzelstatistiken und versucht, aus ihnen die Originalverteilung zu erraten.

Erstaunlich gut. Wir konnten etwa sechs Prozent aller Gesundheitsdaten rekonstruieren, von denen 90 Prozent korrekt sind. Bei einer angenommenen Zielpopulation von 73 Millionen Menschen wären mehr als drei Millionen betroffen. Besonders besorgniserregend ist, dass darunter viele einzigartige Datensätze sind – Kombinationen von Krankheiten und Merkmalen, die es nur einmal im Datensatz gibt. Genau diese wären im echten Leben am leichtesten identifizierbar.

Ja, genau. Mein Angriff weist keine Namen zu. Aber die Rekonstruktion solcher individueller Kombinationen wäre ein weiterer Schritt dahin. Wenn man dann zusätzlich öffentlich verfügbare Informationen oder Leaks hat, könnte man theoretisch Namen zuordnen – wie es etwa beim US-Zensus passiert ist.

Der EHDS soll auf europäischer Ebene genau solche Forschungszugriffe ermöglichen. Wenn man das Thema Datenschutz nicht von Anfang an sauber löst, könnten solche Rekonstruktionsangriffe auch auf reale Gesundheitsdaten anwendbar werden. Das wäre fatal, weil Gesundheitsdaten hochsensibel sind. Eine der Herausforderungen dürfte auch sein, dass sich Daten über Jahrzehnte ansammeln.

Zum einen muss klar sein, wie „anonym“ definiert ist. Das Statistische Bundesamt hat für sich Definitionen festgelegt, die aber bei vielen noch nicht angekommen sind. Die Schutzmechanismen selbst sollten eher für den jeweiligen Datensatz evaluiert werden. Zum anderen braucht es eine institutionelle Kontrolle darüber, welche Anfragen auf die Daten gestellt werden dürfen. Im Moment sind das in vielen EU-Entwürfen noch sehr offene Konzepte. Auch in Deutschland wird zum Beispiel beim Forschungsdatenzentrum Gesundheit noch geforscht, wie man die Daten der ePA später schützen kann. Aber genau diese Klarheit würde das Vertrauen der Bevölkerung stärken.

Es geht nicht darum, Forschung zu behindern, sondern Risiken realistisch zu verstehen. Nur wer weiß, wo Schwachstellen liegen, kann sie sicher schließen. Am Ende ist es natürlich wünschenswert, eine Lösung zu finden, mit der alle glücklich werden.

Krankendaten gesetzlich Versicherter: Millionen Menschen bald reidentifizierbar?

Krankheitskombinationen sind oft einzigartig – Anonymisierung von Gesundheitsdaten daher besonders komplex. Ein Interview über Rekonstruktionsrisiken.