Mit PRECOBS und COMPAS in eine (un)gerechte Zukunft

Autorin: Valeska Slomianka

Werfen wir einen Blick ins Jahr 2037. Deutschland ist so sicher wie nie zuvor. Wie das Bundeskriminalamt in seiner polizeilichen Kriminalstatistik (PKS) mitteilt, ist die Anzahl der registrierten Gewaltverbrechen im Jahr 2037 so niedrig wie nie zuvor in der Geschichte. Bloß 568 Verbrechen wie Morde, Vergewaltigungen, Raubüberfälle oder Körperverletzungen wurden in diesem Jahr verzeichnet. 2017 waren es noch 188.946, mehr als 300 mal so viele. Nie war das Leben in diesem Land so sicher. Der Einsatz der intelligenter Precrime Software zur Identifikation potenzieller Straftaten übertrifft alle Erwartungen. „Es war ein Wendepunkt in der Justiz. Schon seit einigen Jahren wird KI erfolgreich als Instrument für die Kriminalprognose eingesetzt. Nun aber werden Verbrechen verhindert und damit Menschenleben gerettet.“, berichtet der Präsident des Bundeskriminalamtes.

Wenn Gerichte und Polizei eine Blackbox fragen

Was wie der Anfang eines Science-Fiction-Films klingt und Erinnerungen an den Film Minority Report wachruft, wird vielleicht in einigen Jahren von einer Zukunftsdystopie zur Realität geworden sein.

Minority Report (Photo by FOX via Getty Images)

Ähnlich wie die Precogs im Film, sagt die Software PRECOBS (Pre Crime Observation System) schon jetzt der Polizei, wo wahrscheinlich bald ein Verbrechen stattfinden wird. Werfen wir einen Blick in die USA, stellen wir fest, dass Algorithmen bereits heute ein alltägliches Werkzeug für die Erstellung von Kriminalprognosen sind. Sie heißen HART (Harm Assessment Risk Tool) oder COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) und erstellen aus Daten wie dem Alter, Geschlecht und der Kriminalhistorie eine individuelle Rückfallprognose. Das Programm errechnet, wie wahrscheinlich es ist, dass jemand erneut eine Straftat begehen wird. Doch wie dieses Ergebnis zustande kommt, bleibt ein streng gehütetes Geheimnis der entwickelnden Unternehmen.

Prognosen sind Grundlage von richterlichen Entscheidungen

Prognosen werden in verschiedenen Stadien eines Prozesses erstellt und beeinflussen beispielsweise Entscheidungen darüber, ob eine Anklage erhoben wird, ob jemand in einem psychiatrisches Krankenhaus untergebracht oder in Sicherungsverwahrung genommen wird oder ob eine Strafe angepasst wird. Die eigentlichen Entscheidungen werden vom Gericht getroffen, dieses holt sich dafür jedoch häufig die Unterstützung von Sachverständigen. Diese erstellen dann ein Prognosegutachten, auf dessen Grundlage das Gericht seine Entscheidung trifft. Das Gutachten ist also kein Gerichtsurteil. Es beeinflusst dieses aber maßgeblich und ein Gericht wird selten von den Empfehlungen im Gutachten abweichen. Das Gericht hat also die schwere Aufgabe, abzuwägen zwischen den Rechten des Angeklagten und dem Bedürfnis nach Sicherheit der Allgemeinheit. Wird jemand zu unrecht verurteilt oder ist das Strafmaß der Tat unangemessen hoch, bedroht dies die Freiheit des Individuums und unseren Rechtsstaat. Ist das Strafmaß zu gering, erfüllt sie ihren Zweck nicht.

Methoden zur Kriminalprognose

Bei der Erstellung eines Prognosegutachtens wird zwischen drei Methoden unterschieden:

  • die intuitive Methode, bei der Sachverständige sich auf ihre Erfahrung als Experten verlassen
  • die statistische Methode verwendet Testinstrumente, die Risiko- und Schutzmerkmale erfassen, die sich aus empirischen Studien ergeben haben, und diese nach bestimmten Regeln auswerten
  • die klinisch-ideografische Methode ist auf den Einzelfall ausgelegt und sucht nach individuellen Erklärungen für die Tat und nach Möglichkeiten zur Veränderung

In Deutschland ist ein rein statistisches Vorgehen nicht erlaubt, weil es dem Einzelfall nicht gerecht wird. Am Ende eines Gutachtens steht dann eine Aussage über die Wahrscheinlichkeit zum zukünftigen kriminellen Verhalten.

Algorithmen versprechen mehr Sicherheit für wenig Kosten

Das Erstellen eines solchen Gutachtens ist zeit- und kostenintensiv. So gründlich und gewissenhaft Gerichte und Sachverständige auch vorgehen mögen, ihre Beurteilungen können nie völlig objektiv und fair sein. Es liegt also nahe, die Prognoseerstellung automatisieren zu wollen. Ein Computer kann heute größere Datenmengen verarbeiten, als es Menschen in vergleichbarer Zeit möglich wäre. Aber kann ein Algorithmus die Anforderungen erfüllen, die an ein Gutachten gestellt werden? Sind die Prognosen korrekt? Sind seine Entscheidungen nachvollziehbar? Und sind sie gerecht?

Rassistische Algorithmen im Gerichtsalltag

Eine Bericht von ProPublica aus dem Jahr 2016 erhob den Vorwurf, dass COMPAS People of Color (PoC) in ihren Prognosen massiv benachteiligt. Für PoC wird fast doppelt so häufig wie für Weiße zu unrecht ein hohes Rückfallrisiko berechnet (eine hohe falsch-positiv Rate). Bei Weißen ist die falsch-negativ Rate deutlich größer. Sie werden oft rückfällig, obwohl COMPAS ihr Risiko für gering gehalten hat.

White

African American

Labeled Higher Risk, But Didn’t Re-Offend

23,5%

44,9%

Labeled Lower Risk, Yet Did Re-Offend

47,7%

28,0%

Quelle: ProPublica

Menschen werden also von Algorithmen, die im amerikanischen Justizsystem eingesetzt werden, aufgrund ihrer Hautfarbe deutlich diskriminiert. Woran liegt das? Waren diese Algorithmen nicht dazu gemacht, das System gerecht(er) zu machen? Die Algorithmen werden mit Daten aus vergangenen Jahren trainiert und berechnen auf deren Grundlage ihre Entscheidungen. Wären all diese Entscheidungen „gerecht“ gewesen, dann wäre das Verfahren eine deutliche Arbeitserleichterung im Alltag der Justiz. Aber all die Daten, mit denen der Algorithmus lernt, enthalten Diskriminierungen und Vorurteile von Menschen. Und diese werden vom Algorithmus reproduziert. Versuche, die Daten zu bereinigen, scheiterten bisher. COMPAS erfasst die Hautfarbe zwar nicht, es gibt jedoch zu viele Faktoren, die damit korrelieren. Derartige Algorithmen sind also maximal so korrekt oder fair, wie die Menschen, die Entscheidungen in der Vergangenheit getroffen haben. Im Fall von COMPAS scheint der Algorithmus nicht besser oder gerechter zu sein als du und ich.

Wie die Ergebnisse zustande kommen, bleibt ein Geheimnis

Sind die Entscheidungen der Algorithmen nachvollziehbar? Ist der Algorithmus ein Firmengeheimnis, dann kann die Frage klar verneint werden. Doch es gibt Beispiele, wo sogar der Entwicklungsprozess transparent gestaltet wird. Wird maschinelles Lernen eingesetzt, nützt leider auch diese Transparenz wenig. Denn selbst für Fachleute ist das, was zwischen Input und Output geschieht, eine Blackbox. Natürlich machen auch Menschen Fehler bei rechtlichen Entscheidungen. Wenn sie den Entscheidungsprozess nachvollziehbar und transparent gestalten, ist es aber möglich, Fehler zu finden, aus ihnen zu lernen und sie zu korrigieren. Wie soll das möglich sein bei einem Algorithmus, dessen Funktionsweise wir nicht verstehen?

Wie definieren wir Gerechtigkeit?

Am wichtigsten und mit Abstand am schwierigsten ist die Frage der Gerechtigkeit. In der Diskussion zur Beurteilung von COMPAS wird deutlich, dass die Frage danach, was denn eigentlich gerecht ist, nicht ohne Grund die Köpfe in den Rechtswissenschaften und der Philosophie beschäftigt. COMPAS und ProPublica haben für die Beurteilung verschiedene statistische Kennwerte herangezogen. Je nachdem, wie Gerechtigkeit definiert wird, erscheinen auch beide als sinnvoll. Es ist nur nicht möglich, sie beide zu erfüllen. Wertvorstellungen ändern sich und Menschen können ihre Haltungen anpassen. Ein Algorithmus reproduziert vorhandene Werte, er passt sich erst an, wenn sich neue Normen auch in den Trainingsdaten widerspiegeln oder die Entscheidungsregeln angepasst werden. Durch proprietäre oder nicht nachvollziehbare Software liegt die Entscheidung darüber, was Recht und was Unrecht ist, in der Hand von Unternehmen. Natürlich ist es letztendlich das Gericht, welches ein Urteil fällt, aber nur selten weicht es von den Empfehlungen in den Prognosen ab. Wollen wir die Entscheidung, was gerecht ist, in die Hand von kommerziell orientierten Unternehmen geben?

Eine Statistik sagt uns nichts über ein Individuum

Die Prognosen der Algorithmen beruhen auf quantitativen Werten. Es können also nur Informationen in die Entscheidung einfließen, die sich auch in Zahlen ausdrücken lassen. Doch ist die Persönlichkeit eines Menschen überhaupt auf diese Art erfassbar? Welche Merkmale soll der Algorithmus als Input erhalten? Was ein großes Problem bei psychologischen Testverfahren darstellt, gilt auch für Algorithmen. Der Einsatz von Algorithmen kann als eine Form der statistischen Methode zur Kriminalprognose angesehen werden, und ist daher in Deutschland als alleiniges Prognoseinstrument nicht zulässig.

Ich habe für mich noch keine Antwort auf alle die hier aufgeführten Fragen gefunden. Vielleicht sind Computer ja eines Tages wirklich fairer als Menschen. Ich sehe aber nicht, dass sie jemals in der Lage sein werden, ihre Entscheidungen kritisch zu hinterfragen. Aber vielleicht ist es möglich, sie als Werkzeug zu betrachten und sich mit ihrer Hilfe einen Überblick über unüberschaubar große Datenmengen zu verschaffen. Dass sie jedoch über die Zukunft unserer Gesellschaft entscheiden, möchte ich nicht. Denn es wäre eine Gesellschaft, die auf statistischen Wahrscheinlichkeiten basiert. Wie wahrscheinlich war es vor 25 Jahren, dass ich heute hier sitze und diesen Beitrag schreibe?

Die Autorin, Valeska Slomianka, studiert im Ein-Fach-Bachelorstudiengang Informatik der Christian-Albrechts-Universität zu Kiel. Der Beitrag ist in einem Seminar zu Algorithmen in der Gesellschaft entstanden.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.