Wenn Algorithmen in der Jury sitzen

Nur in 65 Prozent der Fälle richtig

Der COMPAS-Algorithmus wird seit dem Jahr 2000 auch zur Vorhersage der Rückfall-Wahrscheinlichkeit von Kriminellen eingesetzt. Dafür berücksichtigt das System laut Angaben des Unternehmens 137 Merkmale der betreffenden Person. Eine erste Auswertung, basierend auf 700 Straftätern, die zwischen 2013 und 2014 in Florida verhaftet worden waren, ergab allerdings wenig ermutigendes Bild: Die Software lag nur bei rund 65 Prozent seiner Vorhersagen richtig – und zeigte zudem eine eklatante Ungleichbehandlung von Weißen und Schwarzen, wie die Forscher berichten. Obwohl der Algorithmus keine Daten über die Rassenzugehörigkeit der Angeklagten erhielt, sagte er bei Schwarzen doppelt so oft fälschlich einen Rückfall in die Kriminalität voraus. “Das weckt die Frage, ob diese Algorithmen überhaupt besser sind als ungeübte Laien, wenn es um eine faire und genaue Vorhersage dieser Art geht”, konstatieren Dressel und Farid.

Um das zu testen, erstellten die Forscher für die Angeklagten von 1000 Fällen, die COMPAS zuvor bewertet hatte, kurze, nur rund drei Sätze umfassende Beschreibungen. Diese nannten Alter und Geschlecht der Angeklagten, wessen sie aktuell angeklagt werden und für wie viele Straftaten sie zuvor schon verurteilt worden waren. Jeder der rund 400 Teilnehmer bekam 20 zufällig ausgewählte Dossiers und sollte für jeden Fall die Frage beantworten: “Glauben Sie, dass dieser Straftäter in den nächsten zwei Jahren eine weitere Straftat verüben wird?”

Genauso gut wie die Software

Das Ergebnis: Obwohl ihre Einschätzungen auf nur wenigen Angaben zu den Tätern beruhten, tippten die Studienteilnehmer in knapp 63 Prozent der Fälle richtig. Wurden ihre Entscheidungen zusammengenommen ausgewertet – weil viele Teilnehmer die gleichen Fälle erhalten hatten – lagen sie sogar in 67 Prozent der Fälle richtig, wie die Forscher berichten. “Damit ist eine kleine Gruppe von Nichtexperten bei der Prognose der Rückfallwahrscheinlichkeit genauso treffsicher wie COMPAS – obwohl sie nur sieben Merkmale statt 137 bekommen hatten”, konstatieren die Forscher. Ausgehend von diesem Ergebnis gingen sie anschließen sogar noch einen Schritt weiter: Sie wiederholten das Experiment mit nur noch zwei Angaben pro Fall: dem Alter des Angeklagten und der Zahl seiner bisherigen Verurteilungen. Das überraschende Ergebnis: Auch hier erreichten die Teilnehmer eine Treffsicherheit von knapp 67 Prozent. Interessant auch: In Bezug auf die – nicht genannte – Rassenzugehörigkeit der Straftäter entschieden die menschlichen Entscheider zumindest etwas weniger einseitig als die Software.

“Behauptungen, nach denen fortgeschrittene und nach geheim gehaltenen Regeln agierende Datentools genauer und fairer entscheiden sollen als Menschen, werden durch unsere Ergebnisse nicht bestätigt”, sagt Dressel. “Es ist beunruhigend, dass bei diesen für die Betroffenen lebensverändernden Entscheidungen ein Computerprogramm nicht besser abschneidet als ungeübte Internetnutzer”, ergänzt Farid. Und dies sei nicht auf das Beispiel COMPAS beschränkt. Wie die Forscher berichten, hat vor Kurzem eine Bewertung von neun verschiedenen algorithmischen Systemen zur Vorhersage der Rückfall-Wahrscheinlichkeit ergeben, dass acht davon keine sonderlich hohe Treffsicherheit besaßen.