Heise 26.01.2026
11:34 Uhr

„KI-Anonymisierung bei Urteilen nur sinnvoll, wenn sie Menschen übertrifft“


KI soll Gerichtsurteile anonymisieren. Warum das nur vollautomatisch und streng evaluiert sinnvoll ist, erklärt Stephanie Evert im Gespräch mit heise online.

„KI-Anonymisierung bei Urteilen nur sinnvoll, wenn sie Menschen übertrifft“

Zunehmend kommen KI-Systeme für die Anonymisierung von Gerichtsurteilen zum Einsatz, etwa die JANO. Prof. Stephanie Evert hat in mehreren Forschungsprojekten mit ihrem Team untersucht, ob und unter welchen Bedingungen sich Gerichtsentscheidungen vollautomatisch anonymisieren lassen – und zwar zuverlässig genug, um sie in großem Umfang zu veröffentlichen. Im Interview spricht sie über technische Grenzen und darüber, warum halbautomatische Lösungen aus ihrer Sicht nicht ausreichen.

Wir haben das auch empirisch gesehen, sowohl in unseren Korpora als auch in bereits veröffentlichten Urteilen. Bei manueller Anonymisierung rutschen regelmäßig Informationen durch. Gerade bei langen Texten oder wenn Namen mehrfach vorkommen, sinkt die Aufmerksamkeit. Ein automatisches System ist da oft konsistenter: Entweder es erkennt einen Namen – dann meist jedes Mal – oder es erkennt ihn gar nicht.

Ein Beispiel aus unserer Evaluation ist der „Zeuge Wiese“. „Wiese“ sieht nicht wie ein typischer Name aus. Das System erkennt ihn deshalb nicht – konsequent im gesamten Urteil.

Deshalb sagen wir: Wenn man ein System einsetzt, dann muss es vorher so gründlich evaluiert sein, dass es in einer klar definierten Domäne nachweislich besser ist als menschliche Arbeit. Erst dann ist ein vollautomatischer Einsatz verantwortbar.

Das ist administrativ nachvollziehbar. Technisch ist es aber kein überzeugendes Argument. Ein schlecht evaluiertes halbautomatisches System ist nicht sicherer als ein gut evaluiertes vollautomatisches – ganz im Gegenteil.

Bei der Anonymisierung ist die Aufgabe sehr viel klarer definiert: Es gibt relativ eindeutige Kriterien, was anonymisiert werden muss – zumindest seit unseren Forschungsprojekten. Genau deshalb lässt sich diese Aufgabe so gut evaluieren. Und genau deshalb kann man hier argumentieren, dass ein automatisches System unter bestimmten Bedingungen besser geeignet ist als menschliche Bearbeitung.

Halbautomatische Systeme können helfen, erste Erfahrungen zu sammeln. Aber sie werden nicht dazu führen, dass wir wirklich große Mengen an Urteilen veröffentlichen. Dafür braucht es Systeme, denen man nach sorgfältiger Evaluation auch zutraut, allein zu arbeiten.

(mack)