KI-Modell AlphaGenome sagt Funktion großer DNA-Abschnitte voraus

Unser Genom liefert den Bauplan und die Gebrauchsanweisung für jede Zelle unseres Körpers. Neben den Regionen, die Proteine codieren, enthält es zu etwa 98 Prozent nicht-codierende Abschnitte, die jedoch eine wichtige Rolle dafür spielen, welche Gene abgelesen werden. Oft sind diese regulatorischen Abschnitte jedoch auf dem DNA-Strang weit entfernt von den Regionen, die sie beeinflussen. Deshalb lassen sich die Zusammenhänge mit herkömmlichen Methoden oft kaum herausfinden. Selbst bisherige KI-Modelle können bisher nur sehr begrenzte Ausschnitte des Erbguts auf einmal erfassen.

Umfassende Analyse genomischer Daten

Ein Team um Žiga Avsec von Google DeepMind in London hat nun ein neues KI-Modell namens AlphaGenome entwickelt, das lange DNA-Abschnitte von bis zu einer Million Basenpaare analysieren kann und dabei eine Auflösung bis auf ein Basenpaar genau erreicht. Dabei kann es elf molekulare Eigenschaften zugleich bestimmen: „AlphaGenome sagt unter anderem voraus, wo Gene in verschiedenen Zelltypen und Geweben beginnen und enden, wo sie gespleißt werden, die Menge der produzierten RNA und auch, welche DNA-Basen zugänglich sind, nahe beieinander liegen oder an bestimmte Proteine gebunden sind“, erläutern die Forschenden.

Trainiert wurde das Deep-Learning-Modell anhand von öffentlich verfügbaren Genomdaten von Menschen und Mäusen. Anhand der experimentell validierten Informationen hat AlphaGenome gelernt, wie bekannte DNA-Sequenzen verschiedene biologische Prozesse in einer Vielzahl von Zelltypen beeinflussen. Auf dieser Basis kann die KI auch vorhersagen, wie sich genetische Varianten auswirken – ein wichtiger Schritt, um Erbkrankheiten besser zu verstehen und möglicherweise neue Ansätze zur Behandlung zu finden.

Avsec und seine Kollegen haben AlphaGenome in verschiedenen Tests gegen die bisher führenden KI-Modelle zur Vorhersage von einzelnen DNA-Sequenzen und regulatorischen Auswirkungen antreten lassen, darunter auch spezialisierte Modelle, die nur einen Teilbereich der Funktionen umfassen. „In 25 von 26 Tests zur Vorhersage der Auswirkungen von genetischen Varianten erreichte oder übertraf AlphaGenome die Leistung der besten verfügbaren externen Modelle“, berichtet das Team. Da das neue KI-Modell die Funktionen zahlreicher spezialisierter Einzelmodelle vereint, könnte es Forschenden helfen, Hypothesen schneller zu generieren und zu testen.

Kostenlose Nutzung für die wissenschaftliche Gemeinschaft

Aus Sicht von Christian Schaaf, Direktor des Instituts für Humangenetik am Universitätsklinikum Heidelberg, der nicht an der Studie beteiligt war, ist die Tatsache, dass ein privates Unternehmen ein so zentrales Modell entwickelt hat, ambivalent: „Einerseits beschleunigt es Innovation, andererseits entstehen Abhängigkeiten von proprietären Modellen und Zugangsbedingungen“, sagt er. „Entscheidend wird sein, inwieweit Trainingsdaten, Modellarchitektur und Schnittstellen transparent und langfristig für die akademische Forschung nutzbar bleiben, und ob sich faire, offene Standards für Evaluation, Regulierung und klinische Anwendung etablieren lassen.“

Über eine API-Schnittstelle ermöglicht Google DeepMind bereits jetzt eine kostenlose Nutzung für die nicht-kommerzielle Forschung. Zukünftig soll das gesamte Modell veröffentlicht werden, sodass Forschende es für ihre Zwecke anpassen und feinjustieren können. „Wir glauben, dass AlphaGenome eine wertvolle Ressource für die wissenschaftliche Gemeinschaft sein kann, die Wissenschaftlern hilft, die Funktion des Genoms und die Biologie von Krankheiten besser zu verstehen und letztendlich neue biologische Entdeckungen und die Entwicklung neuer Behandlungsmethoden voranzutreiben“, schreiben Avsec und sein Team.

Quelle: Žiga Avsec (Google DeepMind, London, UK) et al., Nature, doi: 10.1038/s41586-025-10014-0