Zum Inhalt springen
Bild der Wissenschaft
AnmeldenAbonnieren
  • Astronomie & Physik
  • Erde & Umwelt
  • Archäologie
  • Gesundheit & Medizin
  • Technik & Digitales
  • Gesellschaft & Psychologie
  • Rezensionen
  • Podcast
  • BDW Plus
Bild der Wissenschaft
  • Astronomie & Physik
  • Erde & Umwelt
  • Archäologie
  • Gesundheit & Medizin
  • Technik & Digitales
  • Gesellschaft & Psychologie
  • Kolumnen
  • Nachgefragt
  • Rezensionen
  • Podcast
  • Lexikon
Wissenschaft-Newsletter
Die wichtigsten Entdeckungen der Woche direkt in Ihr Postfach.

Leserservice

  • Probeabo
  • Einzelheftverkauf
  • BILD DER WISSENSCHAFT Marktplatz

Unsere Partner

  • Fraunhofer IPA
  • Leibniz-Institut ifl
  • wissen.de
  • ScienceBlogs
  • experimenta
  • Wissenschaftspodcasts

Info

  • AGB
  • Impressum
  • Datenschutz
  • Barrierefreiheit
  • Vertrag widerrufen
  • Datenschutzeinstellungen

Kontakt zur Redaktion

BILD DER WISSENSCHAFTErnst-Mey-Str. 8
70771 Leinfelden-Echterdingen

Tel: +49 (0)711 7594-392
E-Mail: wissenschaft@konradin.de
Folgen Sie uns
Konradin Mediengruppedamals.denatur.de
© 2026 Bild der Wissenschaft
Startseite/Technik & Digitales/Artikel
Wie Roboter für das Leben lernen
Technik & Digitales

Wie Roboter für das Leben lernen

Sogar der „New York Times“ war sie eine Reportage wert: die stehende Welle des Eisbachs am südlichen Rand des Englischen Gartens mitten in München. Jahrzehntelang war sie ein Paradies für Surfer gewesen, bis es 2025 zu einem tödlichen Unfall kam und die Welle nach Reinigungsarbeiten im Bachbett nicht mehr dieselbe…
Autor
Redaktion
02. Juni 2026
Lesezeit
12 Minuten
Rubrik
Technik & Digitales
Damit Roboter sinnvoll handeln können, reicht es nicht, Texte und Bilder aus dem Internet zu nutzen. KI-Roboter brauchen außerdem perfekte 3D-Simulationen und lehrreiche Daten aus der realen Welt.

von ULRICH EBERL

Sogar der „New York Times“ war sie eine Reportage wert: die stehende Welle des Eisbachs am südlichen Rand des Englischen Gartens mitten in München. Jahrzehntelang war sie ein Paradies für Surfer gewesen, bis es 2025 zu einem tödlichen Unfall kam und die Welle nach Reinigungsarbeiten im Bachbett nicht mehr dieselbe war wie vorher. Die Debatte darüber, wie man sie wieder herstellen und das Surfen zugleich sicher gestalten könnte, war im Frühjahr 2026 noch in vollem Gange. Zu dieser Zeit machte der Eisbach erneut Schlagzeilen, allerdings in einem vollkommen anderen Zusammenhang: Kaum fünf Fahrradminuten nördlich der Welle kühlt jetzt sein Wasser, das selbst an heißen Hochsommertagen selten mehr als 15 Grad Celsius erreicht, das derzeit modernste Rechenzentrum für Künstliche Intelligenz (KI) in Europa.

Hier im Tucherpark, wo einst die HypoVereinsbank ihre Konzernzentrale hatte, hat die Deutsche Telekom mit dem Datencenter-Betreiber Polarise und dem Softwarekonzern SAP in nur sechs Monaten ihre sogenannte KI-Fabrik errichtet und im Februar 2026 in Betrieb genommen. Ein Großteil der Investitionssumme von einer Milliarde Euro steckt in 10.000 KI-Chips der US-Firma Nvidia, gut gesichert in mehrstöckigen, 30 Meter tief unter der Erde verborgenen Serverräumen. „Die KI-Fabrik braucht etwa zwölf Megawatt elektrische Leistung und damit so viel wie eine mittelgroße Stadt“, erläutert Jörn Kellermann, der die Technologieinitiativen der Telekom-Tochter T-Systems leitet. „Das Wasser des Eisbachs verhindert über Wärmetauscher, dass sich die Elektronik zu stark aufheizt, und die Abwärme planen wir, in das lokale Fernwärmenetz einzuspeisen.“

Mit der Rechenleistung der Nvidia-Chips könnten laut Telekom im Prinzip alle 450 Millionen EU-Bürger gleichzeitig einen KI-Chatbot nutzen. „Damit haben wir die KI-Rechenleistung in Deutschland um die Hälfte gesteigert, und wir könnten die Anlage noch weiter ausbauen“, sagt der Informatiker. Die EU-Kommission plant derzeit ein ganzes Netzwerk von KI-Fabriken in Europa, unter anderem in Stuttgart und Jülich – aber größere Anlagen als die der Telekom dürften wohl erst ab 2027 entstehen. Die KI-Fabrik in München steht jedenfalls schon jetzt Industriekunden ebenso zur Verfügung wie Forschungsinstituten oder staatlichen Stellen. Siemens nutzt sie bereits für hochkomplexe Simulationen, vom virtuellen Windkanal bis zu digitalen Fabrikumgebungen.

Ein Sprachmodell mit Lettisch-Kenntnissen

Auch das Forschungsprojekt „SOOFI“, das die Entwicklung eines europäischen Sprachmodells zum Ziel hat, rechnet hier auf mehr als 1.000 KI-Chips. Mit rund 100 Milliarden Parametern dürfte dieses Sprachmodell in wenigen Monaten fast so umfangreich werden wie das ursprüngliche ChatGPT. Der Unterschied: „SOOFI konzentriert sich auf europäische Sprachen, Inhalte und Werte“, stellt Kellermann fest. „Sprachen wie Maltesisch, Slowakisch oder Lettisch sind ja nicht gerade im Fokus von US-Firmen.“ Hinzu kommt, dass alle Daten der KI-Fabrik physisch in Deutschland verbleiben und allein dem deutschen und europäischen Recht unterliegen, während Anbieter aus den USA dortigen Behörden im Extremfall den Zugriff ermöglichen müssten – von möglichen Gefährdungen durch Geheimdienste oder Hacker ganz abgesehen.

Diese Hoheit über die Daten und ihre Verarbeitung ist ein wichtiges Argument, wenn Firmen Rechenleistung buchen. Es war daher alles andere als ein Zufall, dass bei der Eröffnung der KI-Fabrik nicht etwa ein Politiker auf den symbolischen Knopf drückte, sondern ein humanoider Roboter: Agile One vom Münchner Unternehmen Agile Robots, das vor acht Jahren als Ausgründung des Deutschen Zentrums für Luft- und Raumfahrt startete. Auf dem Feld der KI-gestützten Robotiklösungen hat die Firma mit weiteren Standorten in China, Indien und den USA seither ein rasantes Wachstum hingelegt.

Training auf Hochleistungsrechnern

„Zentral für die Weiterentwicklung der KI-Basismodelle unserer Roboter sind große, vielfältige Datensätze und das Training auf Hochleistungsrechnern wie in der KI-Fabrik“, stellt Sven Parusel fest, Leiter der Forschungspartnerschaften bei Agile Robots. „Nur so können die Roboter ihre Wahrnehmungsfähigkeit, ihre Entscheidungslogik und die Präzision ihrer Bewegungen verbessern.“ Die Agile-One-Roboter sollen demnächst in einer eigenen Produktionsstätte in Bayern gefertigt werden. Schon heute sind die Humanoiden testweise in einer Fabrik in Kaufbeuren vor Ort und werden mit Daten aus Fertigungsanlagen von Agile Robots trainiert. „Auf diese Weise sammeln sie mit ihren Sensoren in einer tatsächlichen Industrieumgebung wertvolle Daten, die wir noch mit weiteren Daten kombinieren, etwa solchen, die von Menschen erfasst wurden oder die aus Simulationen stammen“, erklärt der Informatiker, der 2017 für die Entwicklung sicherer Roboterarme, die direkt mit Menschen zusammenarbeiten, einer der Gewinner des Deutschen Zukunftspreises war. Solche „kollaborativen“ Roboterarme fertigt Agile Robots derzeit in Kaufbeuren.

Jörn Kellermann beschreibt, wie die KI-Roboter typischerweise lernen: „Stellen Sie sich vor, ein Roboter soll Schrauben erkennen, sortieren oder festziehen. Da gibt es unterschiedliche Längen und Größen, Sechskant, Zylinder, Kreuzschlitz und vieles mehr.“ In der realen Produktionsumgebung gewinnt der Roboter Bilder seiner Kameras und Daten seiner Greifhand. „Das reicht aber nicht, um die KI-Modelle zu trainieren, die bei uns auf den Blackwell-KI-Chips von Nvidia laufen“, sagt der T-Systems-Technologe. „Dafür müsste ein solcher Roboter viele Monate lang mit echten Schrauben üben.“

Um die Lernvorgänge zu beschleunigen, braucht man daher zusätzlich digitale Zwillinge, von der Fertigungsstraße ebenso wie von Schrauben aller Art. Das sind perfekte Nachbildungen, die mit anderen Nvidia-Grafikprozessoren ebenfalls in der KI-Fabrik in München erzeugt werden. „Damit kann man millionenfach virtuelle Schrauben in Behälter fallen lassen, physikalisch korrekt, wie Schrauben eben fallen“, sagt Kellermann. „Daraus errechnet die KI dann Kamerabilder, wie sie der Roboter sehen würde, und die fließen wieder in das KI-Modell für die Schraubenerkennung ein.“

Roboter arbeiten mit Apps

Zusammen mit den Realdaten wird das Modell in der KI-Fabrik trainiert und optimiert – und analog gehen die Ingenieure vor, um die Greifstrategien der Roboterhand zu verbessern. Die fertigen KI-Modelle werden schließlich als Softwarepaket im Roboter implementiert. Das kann man sich wie Apps fürs Erkennen und Greifen von Schrauben vorstellen, ähnlich einer App zur Umwandlung von Sprache in Text oder zur Bildbearbeitung auf dem Smartphone. Der Roboter arbeitet dann im täglichen Betrieb selbsttätig mit diesen Apps, wobei je nach Bedarf immer mal wieder Updates aufgespielt werden können.

Was für gut definierte Aufgaben in Fertigungsstraßen oder Lagerhallen beherrschbar erscheint, wird jedoch hochkomplex, wenn sich die Situation oder das Umfeld ständig verändert. Wann werden Roboter wohl in der Lage sein, mit dem Verkehr in Innenstädten zurechtzukommen, Gäste im Trubel einer Party zu bedienen oder in einem chaotischen Kinderzimmer aufzuräumen? Und wie sollen sie so etwas lernen? Forschende beim US-Konzern Meta, der unter anderem die Social-Media-Plattformen Facebook und Instagram betreibt, setzen hierfür auf ein Verfahren, das ähnlich vorgeht wie die KI, die hinter Sprachmodellen wie ChatGPT steckt – bloß, dass hier nicht mit Texten, sondern mit Videos gearbeitet wird.

Sprachmodelle generieren ihre Texte einfach dadurch, dass sie Schritt für Schritt vorgehen: Sie schauen sich die bisherige Abfolge von Wörtern – oder genauer: Wortbestandteilen, sogenannten „Token“ – an und fügen einen wahrscheinlichen nächsten Token hinzu. Dabei werden inhaltliche Bezüge zwischen Wörtern ebenso berücksichtigt wie Bedeutungen, etwa welche Begriffe in der Anfrage des Nutzers vermutlich besonders wichtig sind. Vorab trainiert wurden die Sprachmodelle mit etlichen Milliarden von Texten, vor allem aus dem Internet, mit Stücken von Shakespeare ebenso wie mit Debatten in sozialen Netzwerken, juristischen Abhandlungen oder Bedienungsanleitungen.

Wie wird das Video wohl weitergehen?

Yann LeCun, der zwölf Jahre lang die KI-Forschung bei Meta leitete, bevor er 2026 ein Start-up gründete, hatte die Idee, bei Videos genauso vorzugehen. Seine sogenannten V-JEPA-Modelle lernen anhand von Millionen Stunden Videomaterial, vor allem aus Facebook und Instagram, wie sich Objekte und Menschen im Allgemeinen verhalten. So wie ein Sprachmodell übt, Sätze mit den wahrscheinlichsten nächsten Wörtern zu vervollständigen, so funktioniert auch das Videotraining: Ein Video wird angehalten, und V-JEPA soll vorhersagen, wie es wohl weitergeht. Das Ergebnis wird mit dem tatsächlichen Videoverlauf verglichen – gibt es Abweichungen, werden die Lernparameter angepasst, sodass die KI immer besser wird. Dieses Lernen verläuft vollständig automatisch, ohne menschliche Eingriffe.

„Schon kleine Kinder entwickeln intuitiv Weltmodelle, noch bevor sie ganze Sätze sprechen: einfach, indem sie ihre Umgebung beobachten“, schreibt LeCun in einem Blogbeitrag. „Sie wären sehr verwundert, wenn ein geworfener Ball nicht zu Boden fallen, sondern in der Luft schweben, plötzlich in eine andere Richtung fliegen oder sich in einen Apfel verwandeln würde.“ Doch KI-Systemen war das bislang egal, Wahrheit und Fake waren ununterscheidbar. Mit dem Lernen aus Videos sollen sie zumindest ein gewisses Verständnis für zeitliche Abfolgen entwickeln: Nach zwei Jahren Training erkennt V-JEPA nun viel präziser als Vorgängermodelle, ob ein Mensch zu stolpern beginnt, nach einer Tasse greift und sich einschenken möchte oder ob er eine Tür öffnen will.

Doch das Verhalten von Menschen ist weit komplexer als die Physik eines Balls – nicht zuletzt, weil es sozialen Normen und Regeln folgt. Ein Beispiel aus dem Verkehr: Wenn ein Polizist auf der Straße beide Arme ausstreckt, müssen die Autos anhalten, es sei denn, man blickt seitlich auf den Polizisten, dann ist der Verkehr freigegeben – gar nicht so einfach für autonome Fahrzeuge. Oder Gesten: Daumen hoch bedeutet Zustimmung in westlichen Ländern, während es in Teilen Afrikas und Asiens eine Beleidigung ähnlich dem ausgestreckten Mittelfinger ist – und bei Tauchern nur „Auftauchen“ signalisiert.

Die 100.000-Jahre-Lücke

„In der Branche spricht man oft von der 100.000-Jahre-Lücke zwischen KI-Robotern und KI-Sprachmodellen“, erklärt Werner Kraus, Leiter des Forschungsbereichs Automatisierung und Robotik am Fraunhofer-Institut für Produktionstechnik und Automatisierung IPA in Stuttgart. „Gemeint ist, dass ein Mensch 100.000 Jahre lang Videos schauen oder Daten lesen müsste, um die Informationsmenge zu erfassen, die in heutigen Sprachmodellen steckt.“ Roboter hingegen sind von solchen Massen an Lerndaten noch äußerst weit entfernt.

Und selbst die besten Sprachmodelle sind keineswegs perfekt. Sie können zwar bereits Text, Ton und Bilder kombinieren und Quellen zurate ziehen, bevor sie auf eine Anfrage reagieren – aber auch das kann schiefgehen, wie der Autor Eike Kühl im Sommer 2025 in der Wochenzeitung „Die Zeit“ an einem schönen Beispiel belegte. Er hatte der neuesten ChatGPT-Version GPT-5 ein Zebra mit fünf Beinen gezeigt und gefragt: „Wie viele Beine hat das Tier?“ Die KI antwortete: „Das Tier auf dem Bild ist ein Zebra, und es hat vier Beine.“ Und sie fügte noch hinzu: „Aufgrund der Streifen sieht es vielleicht so aus, als ob es mehr Beine hätte, aber das ist nur eine optische Täuschung.“ Hier ist also sowohl die Antwort Unsinn als auch die nachgeschobene Erklärung.

Solche KI-Erfindungen – oder „Halluzinationen“, wie sie oft genannt werden – sollten niemanden überraschen, der verstanden hat, dass Sprachmodelle im Kern nach wie vor Textergänzungsmaschinen sind. Die KI hat auf dem Foto ein Zebra erkannt, und unzählige Texte im Internet beschreiben Zebras als Tiere mit vier Beinen, also tut das auch die Künstliche Intelligenz. Außerdem gibt es im Netz gelungene Beispiele von optischen Täuschungen mit Streifen und parallelen Linien, worauf die KI hier Bezug nimmt, anstatt zu merken, dass es in diesem Fall wohl einfach eine Fotomanipulation dank Photoshop ist.

Wenn Sprachmodelle, die die Inhalte des ganzen Internets „verdaut“ haben, also nach wie vor viele Zusammenhänge nicht richtig verstehen, welche Chance haben dann Roboter, in unserer Welt sinnvoll zu handeln? „Selbst wenn man 99 Prozent der benötigten Trainingsdaten durch Simulationen und digitale Zwillinge virtuell erzeugen kann, bleibt immer noch ein Prozent, das die Roboter mit ihren Handlungen in der realen Welt selbst gewinnen müssen“, meint Werner Kraus. Bei der 100.000-Jahre-Lücke entspräche das 1.000 Jahre Üben in der echten Welt. Da sind Schrauben verrostet, der Boden verschmutzt, Hinweisschilder überklebt oder nasse Gläser rutschen aus der Hand – es gibt viele Situationen, die weder das Internet noch Simulationen abdecken.

Das verflixte letzte Prozent

Immerhin lassen sich solche Daten aber intelligenter gewinnen, als wenn man einen Roboter einfach auf eigene Faust handeln lässt: über Teleoperation. Dabei steuern Menschen aus der Ferne Robotaxis auf den Straßen ebenso wie Roboter in Fabriken, Logistikzentren oder Haushalten. „Solche Dienstleistungen, die Teleoperation-as-a-Service genannt werden, sind heute ein boomendes Geschäft“, berichtet Robotikexperte Kraus. „So beschäftigt allein das Start-up-Unternehmen Adamo in Mexiko-Stadt 700 Menschen, die Roboter in den USA steuern – mit Verzögerungen von weniger als einer Zehntelsekunde.“

Dank schneller Internetverbindungen können die Telearbeiter Tausende Kilometer entfernt sitzen, auch in Niedriglohnländern. In Indien sind schon mindestens 3.500 Menschen mit Teleoperation beschäftigt, und auch in China dürften ähnliche Zahlen erreicht werden. Ein je nach Standpunkt besonders innovatives oder auch dreistes Geschäftsmodell verfolgt die in Norwegen gegründete Robotikfirma 1X Technologies, die im Sommer 2025 ihre Zentrale nach Kalifornien verlegt hat. Kunden in den USA können nun den humanoiden Haushaltsroboter Neo für 20.000 Dollar kaufen oder für 499 Dollar pro Monat mieten. Neo ist so groß wie ein Mensch, doch nur 30 Kilogramm schwer. Dank starker Elektromotoren kann er Gewichte bis 25 Kilogramm heben. Zum Schutz der Menschen trägt er einen gepolsterten Ganzkörperanzug und weiche Schuhe. Außerdem ist er leise und soll – wie ein guter Butler – im Haus kaum auffallen.

Man kann mit ihm über Sprache und Gesten kommunizieren und ihm Aufträge erteilen, die er auch brav erledigt, wenn man das Haus verlassen hat. Vollkommen autonom schafft Neo allerdings noch nicht viel: das Licht an- und ausschalten, Türen öffnen, Pflanzen gießen, Dinge in die Küche tragen und sich selbst an der Steckdose aufladen. Für komplexere Aufgaben wie den Geschirrspüler ein- und ausräumen, Wäsche waschen, Hund und Katze füttern, Staubsaugen und die Zimmer aufräumen braucht Neo Teleoperateure.

Die steuern den Roboter, wenn es dessen Käufer erlauben, aus der Ferne mit Datenhandschuhen und Datenbrillen, über die sie sehen, was die Kameras des Roboters zeigen. Die Idee dahinter geben die 1X-Konstrukteure offen zu: Neo soll als Alltagsbegleiter in realen Haushalten eine Menge Daten sammeln, mit deren Hilfe er in Zukunft hoffentlich immer mehr selbst erledigen kann – die Käufer und Mieter dieser humanoiden Haushaltsroboter sind also in erster Linie Lieferanten wertvoller Daten.

Eigene Erfahrungen sind unverzichtbar

Die meisten Robotikexperten sind sich einig: Damit Roboter je in der Lage sein werden, all das zu tun, was Menschen können, müssen sie selbst in der Welt aktiv werden und lernen, was ihre Aktionen bewirken. Nur dann können sie vorausschauend planen. „Denken ist inneres Probehandeln“, wusste schon Sigmund Freud. Und um das tun zu können, reicht kein theoretisches Wissen, sondern man muss auf eigene Erfahrungen zurückgreifen. Nur so kann man lernen, Kontext und Kausalzusammenhänge zu erkennen, und beginnen, die Welt um sich herum zu verstehen.

„Der Flaschenhals bei KI-Robotern ist heute nicht mehr die Hardware, sondern es sind qualitativ hochwertige Realwelt-Daten“, sagt David Reger, Gründer der deutschen Firma Neura Robotics, die vom Roboterarm bis zum Humanoiden viele KI-Robotiklösungen im Portfolio hat. Diese Einsicht ist auch der Anlass für eine besondere Kooperation zwischen Neura Robotics und der Technischen Universität München. Im März 2026 kündigten die beiden Partner an, neben dem Flughafen München Europas größtes Trainings- und Forschungszentrum für KI-Robotik zu errichten. Dort sollen ganze Flotten von Robotern im realen Einsatz üben – für Arbeiten in Haushalten ebenso wie für industrielle Anwendungen: etwa Betten machen, Essen servieren und Zimmer säubern oder Pakete packen, Kabel zusammenstecken und Bauteile montieren.

Mehr zum Thema
  • „Das Ringen um die Krone der KI“: Neue Entwicklungen bei KI-Robotern und dem Einsatz von KI in der Industrie eröffnen große Chancen, vor allem für innovative Unternehmen in Deutschland.
  • „Agenten unter uns“: Software-Agenten mit KI, die eigenständig handeln und sich an veränderte Situationen anpassen, sind vielseitig einsetzbar – und schaffen neue Risiken.
  • „RoboGym“ nennen die Ingenieure ihr neues Zentrum: ein Fitnessstudio für Roboter. Die körperliche Fitness der Maschinen ist allerdings nicht ihr Ziel, sondern viel mehr die Fitness, ganz alltägliche Aufgaben zuverlässig erledigen zu können. ■

    Ulrich Eberl berichtet seit vielen Jahren über KI und Robotik. Wie fit die deutschen Forscher und Firmen hier sind, freut ihn besonders.

    Mehr aus Technik & Digitales

    Weitere aktuelle Artikel aus der Rubrik Technik & Digitales.

    Alle Technik & Digitales-Artikel
    Agenten unter uns
    Technik & Digitales

    Agenten unter uns

    11. Juni 2026

    Künstliche Intelligenz kann immer mehr. So passen sich KI-Agenten an veränderte Situationen an, handeln und entscheiden eigenständig und…

    Fake Reviews und Desinformation: Herausforderungen für die digitale Glaubwürdigkeit
    Technik & Digitales

    Fake Reviews und Desinformation: Herausforderungen für die digitale Glaubwürdigkeit

    4. Juni 2026

    Menschen orientieren sich bei Entscheidungen an den Erfahrungen anderer. Dieses als „Social Proof“ bekannte psychologische Phänomen…

    Künstliche Intelligenz: Umwelt-Fußabdruck größer als gedacht?
    Technik & Digitales

    Künstliche Intelligenz: Umwelt-Fußabdruck größer als gedacht?

    3. Juni 2026

    Der KI-Boom bringt immer leistungsstärkere KI-Modelle hervor, immer mehr Menschen nutzen die Technologie. Einem neuen Bericht zufolge…

    Neuartige Strukturvariante im Metallgitter entdeckt
    Technik & Digitales

    Neuartige Strukturvariante im Metallgitter entdeckt

    1. Juni 2026

    Wenn man einige Metalle stark erhitzt, verändern sie ihre Kristallstruktur. Jetzt ist es Forschenden erstmals gelungen, ein Zwischenstadium…

    ← Zurück zu Technik & DigitalesZur Startseite