robothub24
Zurück
Technik2. Juni 2026

Physical AI: Was hinter dem Begriff steckt, wo wir wirklich stehen — und warum der Haushaltsroboter noch warten muss

Jensen Huang nannte 2026 den "ChatGPT-Moment der Physical AI". ICRA-Forscher in Wien präsentieren diese Woche Systeme, die vor drei Jahren noch Science-Fiction waren. Trotzdem kann kein humanoider Roboter heute zuverlässig ein Glas aus einem Geschirrspüler holen. Wie weit auseinander liegen Versprechen und Realität — und was muss noch passieren?

Physical AI: Was hinter dem Begriff steckt, wo wir wirklich stehen — und warum der Haushaltsroboter noch warten muss

Jensen Huang stand im Januar vor Tausenden Zuschauern an der CES und sagte, 2026 sei der "ChatGPT-Moment der Physical AI". Die Formulierung war kalkuliert. Huang weiss, was er tut, wenn er einen Begriff prägt.

Physical AI ist Nvidias Wort für etwas, das die Forschung seit Jahrzehnten unter verschiedenen Namen versucht hat: Maschinen beibringen, die physische Welt nicht nur zu verarbeiten, sondern darin zu handeln. Nicht Bilder beschriften. Nicht Text zusammenfassen. Sondern greifen, navigieren, einschätzen, reagieren — in einer Welt, die sich ständig ändert und auf keine saubere Eingabemaske wartet.

Der Unterschied zu dem, was bisher als KI lief, ist fundamental. Ein Sprachmodell operiert in einer vollständig kontrollierten Umgebung: Text rein, Text raus, alles digital, alles vorhersehbar. Ein Roboter in einem Lagerhaus bekommt ein Kamerabild, das vielleicht verwackelt ist, bei schlechtem Licht aufgenommen wurde und einen Karton zeigt, der ein bisschen anders liegt als die 50.000 Trainingsbeispiele. Er muss trotzdem greifen. Und zwar jetzt.

Das ist das Problem, das Nvidia mit der Isaac-GR00T-Plattform und dem Jetson-Thor-Chip angeht. Die Idee dahinter ist elegant: Statt jeden Anwendungsfall separat zu trainieren, wird ein Basismodell auf Simulation und realen Daten vortrainiert — ähnlich wie GPT-4 auf Milliarden Texten — und dann für spezifische Aufgaben feinjustiert. Der Unterschied zur alten Robotik-Entwicklung ist, dass das Modell generalisieren kann. Es hat nicht nur gelernt, Kiste A in Regal B zu stellen. Es hat gelernt, was Greifen bedeutet.

Wie weit das trägt, zeigt die ICRA 2026 in Wien, die gerade läuft. Über 7.000 Forschende präsentieren diese Woche Arbeiten zu Navigation, Manipulation und dem, was sie "Loco-Manipulation" nennen — also die Integration von Bewegung und Greifen als eine einzige Fähigkeit statt zwei getrennte Systeme. Dass dieser Begriff überhaupt einen eigenen Namen braucht, sagt einiges darüber aus, wie schwierig das Problem ist.

Autonomous Navigation ist der Teil, bei dem die Industrie am weitesten ist. SLAM — Simultaneous Localization and Mapping — funktioniert in kontrollierten Umgebungen seit Jahren zuverlässig. Lagerroboter fahren seit 2012 durch Amazon-Fulfillment-Center, autonome Lieferroboter fahren in Dutzenden Städten auf Bürgersteigen. Die Herausforderung ist nicht mehr, ob ein Roboter sich in einem bekannten Raum orientieren kann. Die Herausforderung ist, was passiert, wenn sich dieser Raum verändert. Wenn jemand einen Stuhl verschoben hat. Wenn ein Kind auf dem Boden sitzt. Wenn der Flur nass ist.

Foundation Models für Navigation — also grosse vortrainierte Modelle, ähnlich wie LLMs aber für Bewegungsplanung — sind das aktivste Forschungsfeld gerade. NAVER Labs Europe arbeitet daran, Unitree und Boston Dynamics integrieren sie in ihre Systeme, ETH Zürich forscht in diesem Bereich. Der Stand: Sie funktionieren besser als klassische SLAM-Systeme in unbekannten Umgebungen, aber noch nicht gut genug für unbeaufsichtigten Einsatz in echten Haushalten.

Und dann ist da die Manipulation. Das eigentliche Problem.

Die menschliche Hand hat 27 Freiheitsgrade und Tausende Tastrezeptoren. Sie ist mit einer der grössten Regionen des motorischen Kortex verbunden. Wenn ein Mensch ein rohes Ei aus dem Kühlschrank nimmt, läuft eine Echtzeitsteuerungsschleife ab, die Druck, Temperatur, Position und Gewicht in Millisekunden integriert — ohne dass wir darüber nachdenken. Kein humanoider Roboter kann das heute. Die meisten Demo-Videos, die Roboterhände beim Falten von Kleidung oder beim Öffnen von Flaschen zeigen, laufen unter sehr kontrollierten Bedingungen: perfekte Beleuchtung, bekannte Objekte, oft leicht präparierte Umgebungen.

Figure AIs Helix-02-Modell hat im Frühjahr 2026 echte Fortschritte gezeigt — "Full-Body Autonomy" nennt Figure das. Der Roboter kann jetzt Oberkörper und Unterkörper koordiniert einsetzen, ohne dass beide Systeme separat gesteuert werden. Das ist nicht trivial. Aber es ist auch noch weit davon entfernt, das Geschirr abzuspülen.

Was das für Haushaltsroboter bedeutet: Der Zeitplan, den die Branche kommuniziert — erste Massenlösungen ab 2028, breite Verfügbarkeit ab 2032 — ist nicht unrealistisch, aber er setzt voraus, dass die Manipulationsprobleme in den nächsten drei bis vier Jahren gelöst werden. An den Kosten wird es nicht scheitern. Wenn Schaeffler, BMW und Amazon die Stückzahlen abnehmen, die sie angekündigt haben, werden Aktuatoren und Sensorik billig genug für den Consumer-Markt. Aber billige Hardware nützt nichts, wenn die Software nicht kann, was sie soll.

Der realistischste Einstiegsfall für Haushaltsroboter ist nicht der Universalhelfer, der alles kann. Er ist die Maschine, die drei Dinge sehr gut kann — Staubsaugen, Tragen, eine definierte Transportaufgabe — und sonst nichts versucht. Roombas Nachfolger, nicht Rosie aus den Jetsons.

Für den Schweizer Markt ist das eine nüchterne aber präzise Perspektive. Wer heute in Industrieroboter investiert oder mit ihnen handelt, bewegt sich im reifsten und verlässlichsten Teil dieses Marktes. Die Haushaltsrevolution kommt — aber sie braucht noch ein paar Jahre, um die Physik einzuholen.