Digitale Doubles - wissenschaft.de | Bild der Wissenschaft
BDW PlusTechnik & Digitales
Digitale Doubles
Max-Planck-Forscher wollen den digitalen Menschen erschaffen – als ein perfektes Abbild, als 3D-Avatar in den virtuellen Welten der Computer. Ihr Werkzeug: Dutzende von Kameras und eine Lichtbühne mit mehr als 13.000 LEDs. Die Einsatzfelder reichen vom Gesundheitswesen über die Filmindustrie bis in den Bereich der…
Sie haben noch 2 von 3 kostenlosen Artikeln übrig1/3
von ULRICH EBERL
Das Teenagermädchen Kiri ist für viele Fans die Lieblingsfigur in „Fire and Ash“, der dritten Episode der Filmreihe „Avatar“ des Regisseurs James Cameron, die kurz vor Weihnachten 2025 in die Kinos kam. Kiri ist eigenwillig, ein wenig mysteriös, sehr naturverbunden und mit ihrer blaugrauen Haut, den gelbgrünen Augen und den spitzen Ohren eine junge, attraktive Vertreterin der Na’vi, der menschenähnlichen, rund drei Meter großen Bewohner des Mondes Pandora. Gespielt wird Kiri von der heute 76-jährigen Sigourney Weaver, die schon 1979 in dem Science-Fiction-Horrorklassiker „Alien“ als erste weibliche Actionheldin der Filmgeschichte für Furore sorgte.
Doch wie ist es möglich, dass Weaver in „Avatar“ eine mehr als 60 Jahre jüngere Teenagerin verkörpert? Des Rätsels Lösung offenbart ein Blick hinter die Kulissen der Filmproduktion. Mehr als zwei Jahre verbrachten die menschlichen Darsteller der Na’vi in der sogenannten Performance-Capture-Halle des MBS Media Campus südwestlich von Los Angeles. Weaver und ihre Schauspielkollegen trugen dabei keine Kostüme, sondern enge Anzüge mit speziellen Markern an Gelenken und einigen Stellen des Körpers. Die Positionen und Bewegungen dieser teilweise reflektierenden Marker wurden von Sensoren und Infrarotkameras im Raum erfasst und auf dreidimensionale Computermodelle der fiktiven Na’vi-Figuren übertragen.
Selbst Weavers Gesicht war übersät von aufgemalten Punkten, sodass sie aussah wie das Sams mit seinen Wunschpunkten, und sie trug ein Headset mit kleinen Stereokameras, die wenige Zentimeter vor ihrer Nase befestigt waren. Diese zeichneten selbst die feinsten mimischen Bewegungen auf, sodass Kiri im Film genau dann die Augenbrauen hochzieht oder ihre Mundwinkel verschmitzt kräuselt, wenn Sigourney Weaver dies als ihr Alter Ego im Filmstudio tat.
Grüner Stoff, gespickt mit Kameras
Ein Sprung um die Erde, 9.300 Kilometer von Los Angeles entfernt: Im Max-Planck-Institut für Informatik auf dem weitläufigen Campus der Universität des Saarlandes in Saarbrücken fühlt man sich fast wie in der Performance-Capture-Halle am Pazifik. Die Wände des Raums, groß wie ein Klassenzimmer, sind mit grünen Stoffbahnen verhängt, aus denen 120 hochauflösende Kameras ragen. „Damit können wir Bewegungen allein aus Videodaten erfassen, ohne dass die Personen Spezialanzüge oder Marker tragen müssen“, erklärt Christian Theobalt, der an dem Institut die Abteilung für Visuelle Datenverarbeitung und Künstliche Intelligenz (KI) leitet.
Ob jemand tanzt, springt oder in die Hände klatscht, die Computertechnik hinter den vielen Kameras erkennt das sofort: Auf den Monitoren im grünen Raum überlagern dann stilisierte Skelette die Bilder der Menschen im Video und bewegen sich synchron mit ihnen. Das funktioniert sogar mit den Händen, farbige Striche folgen noch dem kleinsten Fingerzucken. Bereits 2013 entstand aus dieser Forschung ein Start-up-Unternehmen: The Captury. „Viele Filmproduktionsfirmen und Entwickler von Computerspielen nutzen heute diese Technologie, weil sie schnell und einfach umgesetzt werden kann“, sagt MPI-Direktor Theobalt.
Mehr aus Technik & Digitales
Weitere aktuelle Artikel aus der Rubrik Technik & Digitales.
Die Hauptanwendung liegt allerdings woanders: im Gesundheitswesen und im Sportbereich. Das US-Unternehmen Dari Motion vermarktet Systeme für die Analyse von Bewegungen und hat deshalb vor fünf Jahren The Captury gekauft. So lässt sich aus den Videodaten, wie ein Mensch bestimmte Bewegungen ausführt, abschätzen, ob die Gefahr von orthopädischen Erkrankungen besteht oder wie erfolgreich die Rehamaßnahmen nach einer Operation sind. Und bei vielen Sportarten zeigt die Computeranalyse, ob die Trainingsmethoden den Effekt haben, den man gerne erreichen möchte.
Vermessung der menschlichen Vielfalt
Doch was das MPI-Team mit seinen Bild- und Videostudien erreichen will, ist etwas weit Grundsätzlicheres: „Wir wollen die Vielfalt des Menschen vermessen“, sagt Theobalt, „und mehr noch: Wir wollen Modelle der realen Welt bauen, um sie möglichst perfekt in der virtuellen Welt abzubilden.“ Der Informatikprofessor meint damit, dass Computer und Roboter nicht nur das Sehen lernen sollen, sondern auch das Verstehen. Mit Methoden der Künstlichen Intelligenz sollen sie Menschen, deren Aktionen sowie ihre Umgebung besser interpretieren. Dann wären sie in der Lage, präzisere Vorhersagen zu treffen, und Roboter können zielgerichteter planen und sinnvoller agieren.
Um Personen und Objekte bis ins Kleinste zu vermessen und sie als 3D-Avatare in virtuellen Räumen wiederauferstehen zu lassen, verfügt Theobalts Abteilung seit zwei Jahren über ein weiteres, fast einzigartiges Labor. Im Zentrum dieses ganz in Schwarz gehaltenen Raums steht eine steuerbare neue Sonne: eine 3,5 Meter große Kugel mit 331 Lichtmodulen, die über jeweils 42 starke Leuchtdioden verfügen. Diese mehr als 13.000 LEDs könnten jeden, der das Innere dieser Lichtbühne, die „Lightstage“, betritt, aus allen Richtungen mit so gleißend hellem Licht bestrahlen, dass man sofort erblinden würde. „Üblicherweise nutzen wir aber nur wenige Prozent der maximalen Lichtleistung“, beruhigt Forschungsgruppenleiter Marc Habermann.
Lichteffekte wie in einer Kathedrale
Die Lichtkugel kann beliebige Beleuchtungssituationen nachstellen: wie die Sonnenstrahlen durch Buntglasfenster einer gotischen Kathedrale fallen ebenso wie den Spaziergang durch einen lichtdurchfluteten Laubwald oder durch dunkle Straßenschluchten. Müsste ein Schauspieler etwa eine Szene im funkelnden Licht der Pariser Sainte-Chapelle drehen, dann könnte man das genauso gut in der Lightstage in Saarbrücken tun – vorausgesetzt, man hätte vorher die Lichtbedingungen in der echten Kapelle vermessen. Einige Filmproduktionen verfügen tatsächlich über kleinere Exemplare solcher Lichtbühnen, etwa um die Gesichter von Stunt-Doubles durch die der Schauspieler zu ersetzen und zugleich die Beleuchtung identisch zu halten.
„Wir Forscher nutzen die Lightstage jedoch anders“, sagt Habermann und demonstriert, was er meint: Binnen weniger Sekunden leuchtet jedes der 331 Lichtmodule einmal auf, mit dem Effekt, dass das Licht wie ein Blitz um das Objekt in der Mitte der Kugel herumzurasen scheint. „One Light at a Time“ nennen die Forscher diese Methode. „Das Objekt wird auf diese Weise von jeder Richtung einmal beleuchtet“, erklärt der Informatiker. „Und mit 40 Kameras nehmen wir gleichzeitig die Lichtreflexionen auf.“ Am Computer wird das dann alles zusammengesetzt und ein digitales 3D-Modell erzeugt, das man in jede Umgebung und jede Lichtstimmung platzieren kann – auch digital in die Sainte-Chapelle oder den Laubwald, wenn gewünscht.
Augenmerk auf Haut, Haare und Kleidung
Besonders interessieren sich die MPI-Forscher dabei für Haut, Haare und Kleidung. Die Feinheit von Haaren gilt seit jeher als enorme Herausforderung für die Designer von Computeranimationen, teilweise werden Haare Bild für Bild von Hand modelliert. Lichteffekte von bewegten Kleidungsstücken können auch Probleme aufwerfen, zum Beispiel der Faltenwurf und der Schatten bei einem Mantel, Rock oder gar einem Schleier. „Nicht zu vergessen ist die Haut“, sagt Habermann. „Je nach Wellenlänge des Lichts und je nach Hauttyp, ob hell- oder dunkelhäutig, dringt das einfallende Licht unterschiedlich tief in Hautschichten ein und wird auch unterschiedlich reflektiert.“
Studien haben gezeigt, dass Menschen recht gut darin sind, Unstimmigkeiten intuitiv zu erkennen: Haut, die zu glatt wirkt, ein Schleier, der nicht richtig fällt, Haarsträhnen, die sich nicht korrekt bewegen – oder eine Gesichtsmimik, die nicht zu den gesprochenen Worten passt. Für Letztere haben die Forscher um Christian Theobalt schon vor Jahren Lösungen entwickelt, die in die Technologie des britischen KI-Start-ups Flawless AI eingeflossen sind. Das könnte künftig die Synchronisation von Filmen revolutionieren: Denn damit lassen sich Mimik und Mundbewegungen der Schauspieler an neue Texte anpassen. Im Film „Watch the Skies“ wurde das zum ersten Mal umgesetzt. Die Darsteller sprechen eigentlich Schwedisch, aber als der Film 2025 in die US-Kinos kam, waren die Schauspieler dank Flawless AI mit lippen- und mimiksynchronem Englisch zu sehen und zu hören.
Die Frage aller Fragen
Zurück zum Licht: Wenn für einen Menschen in der Lightstage per Lichtblitz-Gewitter alle Reflexionsdaten ermittelt wurden, ist es für die Forscher ein Leichtes, einen perfekten 3D-Avatar der Person zu erschaffen und diesen in beliebige Umgebungen zu versetzen. Mit Bewegungsdaten, die etwa im grünen Raum aufgenommen wurden, kann dieser Avatar auch sehr realistisch Aktionen durchführen. Allerdings: Was tut man, wenn der Avatar eine andere Kleidung tragen oder eine andere Person darstellen soll und wenn ein Nutzer gerade keine aufwendige Lichtbühne mit Tausenden von LEDs sowie Dutzenden von Kameras zur Verfügung hat? „Das ist die Frage aller Fragen“, sagt MPI-Wissenschaftler Theobalt und erklärt: „Wie schaffen wir es, die Modelle zu generalisieren? Idealerweise so weit, dass der Rechner aus wenigen Kamerabildern einen guten Avatar bauen kann.“
Helfen können hier die Verfahren der generativen KI, die in den letzten Jahren immer weiterentwickelt wurden. Dabei werden KI-Systeme mit Milliarden von Bildern trainiert und sie lernen auf diese Weise, wie Objekte üblicherweise aussehen. Ähnlich agieren auch wir Menschen aufgrund unserer Erfahrung. Selbst wenn wir eine bestimmte Kanne noch nie gesehen haben, können wir intuitiv gut einschätzen, wo wohl ihr Henkel sein dürfte, auch wenn er dem Blick gerade verborgen ist. Roboter nutzen solche Lerndaten bereits, um unbekannte Objekte sicher zu greifen. Sollte allerdings ein kubistischer Künstler die Kanne entworfen haben, stößt die Roboterhand wohl ins Leere – „KI-Lernverfahren können immer nur Wahrscheinlichkeitsaussagen liefern, ob es um das Vervollständigen von Texten geht oder um das Aussehen von Dingen“, erklärt Theobalt.
Dank der Forscher am MPI in Saarbrücken ist es nun aber bereits möglich, bei KI-generierten Bildern die Ansicht zu wechseln. Hat die KI etwa das Bild eines Hasen erstellt, kann man sie auffordern: „Ich möchte diesen Hasen nicht von der Seite sehen, sondern von vorne“, und die KI wird denselben Hasen frontal zeigen. Bislang war ein solcher Blickwechsel schwierig zu verwirklichen, weil Systeme der generativen KI üblicherweise Bilder immer wieder neu erschaffen und dabei vorherige Details auch einmal verloren gehen. Ein wichtiges Ziel der Forschungsarbeit von Theobalts Team ist es daher, dass KI-Systeme konsistente Resultate liefern, die außerdem physikalisch korrekt sind, in der Geometrie, in den Verformungen, in den Bewegungen der Objekte.
Virtuelle Umkleidekabinen
Wenn sich also in Zukunft mit wenigen Input-Daten – mit nur ein paar Kamerabildern oder mit einem kurzen Video – immer bessere digitale Avatare erstellen lassen, welche neuen Einsatzgebiete wird das erschließen? Virtuelle Umkleidekabinen, in denen Kleidung aus dem Internet am persönlichen Avatar mit den eigenen Maßen ausprobiert werden kann, sind eine naheliegende Idee. Für die digitale Auferstehung von Verstorbenen in Bild und Ton gibt es bereits eine ganze Industrie, die sich mit den neuen Technologien weiter professionalisieren könnte – für viele sicher eine eher gruselige Vorstellung.
„Was ich jedoch vor allem faszinierend finde, ist der Bereich von Bildung und Kommunikation“, sagt Marc Habermann. So sind Klassen nie homogen. Jeder Schüler hat individuelle Fähigkeiten und Lernpräferenzen. Der eine lernt lieber mit Videos, die andere begreift schneller, wenn sie viele Rückfragen stellen kann. All das ließe sich am besten in Vertiefungsstunden mit einem persönlichen Tutor umsetzen, meint der Informatiker. „Genau das sollen künftig KI-Avatare leisten.“ Eine Vorstufe bietet die britische Firma Synthesia heute schon an: eine Vielzahl von Avataren – einem realen Menschen gleichend oder aus einer Datenbank –, die vorher verfasste Texte in über 140 Sprachen in Videos umsetzen können.
Das eignet sich gut für Schulungszwecke und fürs Marketing, aber Habermann denkt weiter. Er stellt sich KI-Avatare vor, mit denen man interaktiv umgehen kann. Sie sollen sich künftig individuell auf jeden Schüler einstellen, freundlich und geduldig und immer dann zur Stelle, wenn sie gebraucht werden. „Für den Erfolg besonders wichtig wird sein, dass man ganz natürlich mit ihnen kommuniziert, also über Gestik, Mimik, Sprache.“ Schüler und Avatar sollen so selbstverständlich miteinander umgehen wie Menschen untereinander.
Neue Erkenntnisse über Kommunikation
Die Bild- und Videoaufnahmen im grünen Raum in Saarbrücken sind dabei eine große Hilfe, um KI-Systemen beizubringen, wie sich Menschen bewegen und wie sie gestikulieren. Allerdings ist die Auswertung nicht einfach: Sechs Stunden Aufnahmezeit mit 120 Videokameras entsprechen 1.000 Terabyte an Daten, das füllt rund 100 übliche externe Computer-Festplatten. Zudem sind die Feinheiten der menschlichen Kommunikation auch für Psychologen noch lange nicht restlos geklärt: „Auch hier können realistische Avatare spannende Forschungsansätze eröffnen“, sagt Christian Theobalt. „So kann man vorgeben, dass der Avatar dieselbe Rede noch einmal hält, aber nur eine Handbewegung ändert, oder seine Mimik oder die Stimmlage. So lässt sich gut prüfen, welchen Effekt das auf die Zuschauer hat.“ Selbst mit den besten Schauspielern wäre so etwas kaum machbar.
Und wie können die Studierenden von morgen – oder alle, die eine Telekonferenz durchführen wollen – die Avatare ihrer Gegenüber im Raum möglichst realistisch wahrnehmen? Virtual-Reality-Brillen sind eine Möglichkeit. Etliche Firmen bieten auch große 3D-Monitore an, für die man keine Brillen benötigt. Stattdessen werden spezielle Linsenraster vor das Display geschaltet oder eine Kamera verfolgt die Augen des Betrachters, sodass jedes Auge das passende Stereobild wahrnimmt. Volumendisplays oder Hologramme sind ebenfalls vorstellbar, und wie steht es mit einem Holodeck oder dem virtuellen Doktor aus „Star Trek“? „Ein lebensgroßer KI-Assistent, mit dem man ganz real interagieren kann – so weit ist die Forschung noch lange nicht“, sagt Theobalt und lacht: „Aber Science-Fiction ist auch für uns Wissenschaftler immer sehr inspirierend.“
Den Kommunikator aus „Star Trek“ zum Beispiel gab es lange vor Klapphandys, die Entwicklung der Quantenteleportation erinnert an das Beamen, und die Gestensteuerung aus „Minority Report“ war das Vorbild für die heutigen Lösungen – was können wir dann wohl von „Avatar“ erwarten? ■
Menschen orientieren sich bei Entscheidungen an den Erfahrungen anderer. Dieses als „Social Proof“ bekannte psychologische Phänomen…
Technik & Digitales
Künstliche Intelligenz: Umwelt-Fußabdruck größer als gedacht?
3. Juni 2026
Der KI-Boom bringt immer leistungsstärkere KI-Modelle hervor, immer mehr Menschen nutzen die Technologie. Einem neuen Bericht zufolge…
Technik & Digitales
Wie Roboter für das Leben lernen
2. Juni 2026
Damit Roboter sinnvoll handeln können, reicht es nicht, Texte und Bilder aus dem Internet zu nutzen. KI-Roboter brauchen außerdem perfekte…