Einblicke ins Innenleben von KI-Modellen

KI-basierte große Sprachmodelle haben sich große Mengen des Wissens der Menschheit angeeignet und sind dadurch inzwischen weit mehr als reine Antwortgeneratoren. Auf Basis ihres enormen Datenschatzes können die künstlichen Intelligenzen abstrakte Konzepte verinnerlichen und bestimmte Tonfälle, Persönlichkeiten oder Stimmungen annehmen. Wie genau es dazu kommt und wie die inneren „Überzeugungen“ einer KI ihre Antworten beeinflussen, ist bisher allerdings eine Blackbox.

Verborgenen Konzepten auf der Spur

Ein Team um Daniel Beaglehole von der University of California in San Diego hat nun eine Methode entwickelt, um die verborgenen, von der KI verinnerlichten Konzepte transparent zu machen. Dazu nutzten die Forschenden einen Algorithmus namens „Recursive Feature Machine” (RFM). Dieser basiert auf maschinellem Lernen und ist in der Lage, Muster in Daten zu identifizieren und komplexe Zusammenhänge abzubilden.

Auf diese Weise untersuchten Beaglehole und seine Kollegen verschiedene Versionen des KI-Sprachmodells Llama auf insgesamt 512 Konzepte, darunter Persönlichkeiten, Stimmungen und Ängste. Beispielsweise analysierten sie, welche internen Verknüpfungen aktiv wurden, wenn sie das Modell aufforderten, aus Sicht einer Person zu antworten, die Boston liebt oder als Social Influencer arbeitet.

Nutzen und Risiken

Diese Erkenntnisse ermöglichten es dem Team, die entsprechenden Verknüpfungen gezielt zu stärken oder zu schwächen und damit zukünftige Antworten zu beeinflussen. „Mit unserer Methode gibt es Möglichkeiten, diese verschiedenen Konzepte zu extrahieren und sie auf eine Weise zu aktivieren, die mit Prompting nicht möglich ist“, berichtet Co-Autor Adityanarayanan Radhakrishnan vom Massachusetts Institute of Technology (MIT) in Cambridge.

Wie das Team herausfand, ist diese Möglichkeit der Beeinflussung jedoch ein zweischneidiges Schwert: Zum einen lässt sich damit die Qualität der Antworten steigern und die KI wird ohne großen Trainingsaufwand leistungsfähiger für bestimmte Aufgaben. Zum anderen sind allerdings auch missbräuchliche Verwendungen möglich: Schwächten die Forschenden zum Beispiel das Konzept, das der KI vorschreibt, schädliche Anfragen abzulehnen, lieferte sie bereitwillig Anleitungen dazu, wie man eine Bank ausraubt oder Kokain konsumiert. Stärkten sie das Konzept „Verschwörungstheorien“, schrieb die KI zu einem NASA-Bild der Erde, dieses sei gefälscht und die Erde sei in Wirklichkeit eine Scheibe.

Blick in die Blackbox

Doch auch im Fall der bisher möglichen missbräuchlichen Anwendungen kann die neue Methode dazu beitragen, entsprechende Schwächen aufzudecken und zu beseitigen. Ebenso kann sie dabei helfen, den Ursachen von Halluzinationen auf die Spur zu kommen – also dem KI-typischen Problem, sich Informationen auszudenken. Verglichen mit anderen Methoden benötigt die RFM-Technik zudem nur wenig Rechenkapazität, wie die Forschenden erklären. Damit lässt sie sich leicht in bestehende Trainingsstrukturen für KI-Sprachmodelle integrieren, um die Blackbox der künstlichen Intelligenz zu öffnen.

„Unsere Ergebnisse deuten darauf hin, dass die Modelle mehr wissen, als sie in ihren Antworten zum Ausdruck bringen, und dass das Verständnis der internen Darstellungen zu grundlegenden Leistungs- und Sicherheitsverbesserungen führen könnte“, schreibt das Forschungsteam.

Quelle: Daniel Beaglehole (University of California San Diego, La Jolla, USA) et al., Science, doi: 10.1126/science.aea6792