Zum Inhalt springen
Bild der Wissenschaft
AnmeldenAbonnieren
  • Astronomie & Physik
  • Erde & Umwelt
  • Archäologie
  • Gesundheit & Medizin
  • Technik & Digitales
  • Gesellschaft & Psychologie
  • Rezensionen
  • Podcast
  • BDW Plus
Bild der Wissenschaft
  • Astronomie & Physik
  • Erde & Umwelt
  • Archäologie
  • Gesundheit & Medizin
  • Technik & Digitales
  • Gesellschaft & Psychologie
  • Kolumnen
  • Nachgefragt
  • Rezensionen
  • Podcast
  • Lexikon
Wissenschaft-Newsletter
Die wichtigsten Entdeckungen der Woche direkt in Ihr Postfach.

Leserservice

  • Probeabo
  • Einzelheftverkauf
  • BILD DER WISSENSCHAFT Marktplatz

Unsere Partner

  • Fraunhofer IPA
  • Leibniz-Institut ifl
  • wissen.de
  • ScienceBlogs
  • experimenta
  • Wissenschaftspodcasts

Info

  • AGB
  • Impressum
  • Datenschutz
  • Barrierefreiheit
  • Vertrag widerrufen
  • Datenschutzeinstellungen

Kontakt zur Redaktion

BILD DER WISSENSCHAFTErnst-Mey-Str. 8
70771 Leinfelden-Echterdingen

Tel: +49 (0)711 7594-392
E-Mail: wissenschaft@konradin.de
Folgen Sie uns
Konradin Mediengruppedamals.denatur.de
© 2026 Bild der Wissenschaft
Startseite/Technik & Digitales/Artikel
Einblicke ins Innenleben von KI-Modellen
Technik & Digitales

Einblicke ins Innenleben von KI-Modellen

Wie kommen KI-Modelle zu ihren Antworten? Bisher war diese Frage schwierig zu beantworten. Doch nun haben Forschende eine Methode entwickelt, um die verborgenen Konzepte im Inneren großer KI-Sprachmodelle offenzulegen. Die Technik zeigt nicht nur die grundlegenden Einstellungen und „Persönlichkeitsmerkmale“ der…
Autor
Elena Bernard
20. Februar 2026
Lesezeit
3 Minuten
Rubrik
Technik & Digitales

KI-basierte große Sprachmodelle haben sich große Mengen des Wissens der Menschheit angeeignet und sind dadurch inzwischen weit mehr als reine Antwortgeneratoren. Auf Basis ihres enormen Datenschatzes können die künstlichen Intelligenzen abstrakte Konzepte verinnerlichen und bestimmte Tonfälle, Persönlichkeiten oder Stimmungen annehmen. Wie genau es dazu kommt und wie die inneren „Überzeugungen“ einer KI ihre Antworten beeinflussen, ist bisher allerdings eine Blackbox.

Verborgenen Konzepten auf der Spur

Ein Team um Daniel Beaglehole von der University of California in San Diego hat nun eine Methode entwickelt, um die verborgenen, von der KI verinnerlichten Konzepte transparent zu machen. Dazu nutzten die Forschenden einen Algorithmus namens „Recursive Feature Machine” (RFM). Dieser basiert auf maschinellem Lernen und ist in der Lage, Muster in Daten zu identifizieren und komplexe Zusammenhänge abzubilden.

Auf diese Weise untersuchten Beaglehole und seine Kollegen verschiedene Versionen des KI-Sprachmodells Llama auf insgesamt 512 Konzepte, darunter Persönlichkeiten, Stimmungen und Ängste. Beispielsweise analysierten sie, welche internen Verknüpfungen aktiv wurden, wenn sie das Modell aufforderten, aus Sicht einer Person zu antworten, die Boston liebt oder als Social Influencer arbeitet.

Nutzen und Risiken

Diese Erkenntnisse ermöglichten es dem Team, die entsprechenden Verknüpfungen gezielt zu stärken oder zu schwächen und damit zukünftige Antworten zu beeinflussen. „Mit unserer Methode gibt es Möglichkeiten, diese verschiedenen Konzepte zu extrahieren und sie auf eine Weise zu aktivieren, die mit Prompting nicht möglich ist“, berichtet Co-Autor Adityanarayanan Radhakrishnan vom Massachusetts Institute of Technology (MIT) in Cambridge.

Wie das Team herausfand, ist diese Möglichkeit der Beeinflussung jedoch ein zweischneidiges Schwert: Zum einen lässt sich damit die Qualität der Antworten steigern und die KI wird ohne großen Trainingsaufwand leistungsfähiger für bestimmte Aufgaben. Zum anderen sind allerdings auch missbräuchliche Verwendungen möglich: Schwächten die Forschenden zum Beispiel das Konzept, das der KI vorschreibt, schädliche Anfragen abzulehnen, lieferte sie bereitwillig Anleitungen dazu, wie man eine Bank ausraubt oder Kokain konsumiert. Stärkten sie das Konzept „Verschwörungstheorien“, schrieb die KI zu einem NASA-Bild der Erde, dieses sei gefälscht und die Erde sei in Wirklichkeit eine Scheibe.

Blick in die Blackbox

Doch auch im Fall der bisher möglichen missbräuchlichen Anwendungen kann die neue Methode dazu beitragen, entsprechende Schwächen aufzudecken und zu beseitigen. Ebenso kann sie dabei helfen, den Ursachen von Halluzinationen auf die Spur zu kommen – also dem KI-typischen Problem, sich Informationen auszudenken. Verglichen mit anderen Methoden benötigt die RFM-Technik zudem nur wenig Rechenkapazität, wie die Forschenden erklären. Damit lässt sie sich leicht in bestehende Trainingsstrukturen für KI-Sprachmodelle integrieren, um die Blackbox der künstlichen Intelligenz zu öffnen.

„Unsere Ergebnisse deuten darauf hin, dass die Modelle mehr wissen, als sie in ihren Antworten zum Ausdruck bringen, und dass das Verständnis der internen Darstellungen zu grundlegenden Leistungs- und Sicherheitsverbesserungen führen könnte“, schreibt das Forschungsteam.

Quelle: Daniel Beaglehole (University of California San Diego, La Jolla, USA) et al., Science, doi: 10.1126/science.aea6792

LLM

Mehr aus Technik & Digitales

Weitere aktuelle Artikel aus der Rubrik Technik & Digitales.

Alle Technik & Digitales-Artikel
Agenten unter uns
BDW PlusTechnik & Digitales

Agenten unter uns

11. Juni 2026

Künstliche Intelligenz kann immer mehr. So passen sich KI-Agenten an veränderte Situationen an, handeln und entscheiden eigenständig und…

Fake Reviews und Desinformation: Herausforderungen für die digitale Glaubwürdigkeit
Technik & Digitales

Fake Reviews und Desinformation: Herausforderungen für die digitale Glaubwürdigkeit

4. Juni 2026

Menschen orientieren sich bei Entscheidungen an den Erfahrungen anderer. Dieses als „Social Proof“ bekannte psychologische Phänomen…

Künstliche Intelligenz: Umwelt-Fußabdruck größer als gedacht?
Technik & Digitales

Künstliche Intelligenz: Umwelt-Fußabdruck größer als gedacht?

3. Juni 2026

Der KI-Boom bringt immer leistungsstärkere KI-Modelle hervor, immer mehr Menschen nutzen die Technologie. Einem neuen Bericht zufolge…

Wie Roboter für das Leben lernen
BDW PlusTechnik & Digitales

Wie Roboter für das Leben lernen

2. Juni 2026

Damit Roboter sinnvoll handeln können, reicht es nicht, Texte und Bilder aus dem Internet zu nutzen. KI-Roboter brauchen außerdem perfekte…

← Zurück zu Technik & DigitalesZur Startseite