Eine Zusammenfassung des VLA-Abends im Web Data Loft.
Wir haben Ingenieure von Agility Robotics, Tesla, Prometheus und Distill Labs in Bright Data’s Web Data Loft in San Francisco zusammengebracht, um eine Frage zu diskutieren:
Was braucht es wirklich, um von einem Sprachmodell zu einem Roboter zu gelangen, der in der realen Welt funktioniert?
Die Antwort war bodenständiger als der Hype vermuten lässt. Der Engpass liegt nicht nur in der Modellarchitektur. Es ist das Trainingskorpus: was man sammelt, wie man es kombiniert, woher es stammt und ob man es in einem Umfang kuratieren kann, den kein manuelles Team bewältigen kann.
Auf dem Panel waren Sri und Ahmed von Agility Robotics, Ankur, ein Robotik-ML-Ingenieur, der in persönlicher Eigenschaft sprach, Daniel von Prometheus, ehemals 1X und Waymo, sowie Jacek, Mitgründer von Distill Labs. Die Diskussion wurde von Adam von HackerSquad und dem Builders Collective moderiert.
Nachfolgend die fünf wichtigsten Erkenntnisse für alle, die ein Vision-Language-Action-Modell, ein World Model oder die dahinterstehende Datenpipeline entwickeln.
1. Ein VLA ist ein VLM mit einem Action Head, und seine Generalisierung kommt aus dem Web-Scale-Pretraining
Die Arbeitsdefinition des Panels war einfach: Ein VLA beginnt als Vision-Language-Modell, das auf internetgroßen Text- und Bilddaten trainiert wird – auf Aufgaben wie Bildunterschriften, Segmentierung und Objektverständnis. Anschließend fügt man eine Action-Komponente hinzu und feinabstimmt es auf Robotikdaten.
Diese Unterscheidung ist wichtig. Die Robotikdaten lehren die Ausführung. Das Web-Scale-Pretraining lehrt das Modell, wie die Welt beschaffen ist.
Deshalb kann ein VLA manchmal ein Objekt greifen, für das es nie explizit trainiert wurde. Die Generalisierung stammt nicht allein aus einem kleinen Satz teleoperierter Roboter-Demonstrationen. Sie kommt aus breiter visueller und semantischer Exposition, bevor der Roboter überhaupt ins Spiel kommt.
Wenn Ihr Pretraining-Korpus eng gefasst ist, kann keine noch so teure Teleoperationsdatenmenge die übersprungene Generalisierung vollständig ausgleichen.
“Es wird auf internetgroßen Daten zu Text und Bildern trainiert… dann feinabstimmt man das VLM auf Robotikdaten und erhält ein Vision-Language-Action-Modell. Das Schöne ist die bessere Generalisierung: Wenn man es trainiert, ein bestimmtes Objekt zu greifen, kann man es bitten, ein anderes Objekt zu greifen, weil es ähnliche Dinge gesehen hat.”
— Ankur, Robotik-ML-Ingenieur, in persönlicher Eigenschaft. Ansehen bei 9:59 →
📖 Weiterführende Lektüre: Was ist ein Vision-Language-Modell (VLA)? · Beste Robotik-KI-Bibliotheken · Foundation Models erklärt
2. Vision, Sprache und Action verschmelzen in einem Token-Raum
Moderne VLAs ähneln LLMs in einem wichtigen Aspekt: Sie sagen das nächste Token vorher.
Dieses Token kann ein Wort, ein Bild-Patch oder ein Gelenkraum-Steuerbefehl sein. Wie Jacek, Mitgründer von Distill Labs, erklärte, ist der Bezug zu Software-Agenten direkt. Ein LLM ruft API-Tools auf. Ein VLA ruft physische Tools auf. Der Rahmen wechselt von “Endpunkt aufrufen” zu “Becher greifen”, aber das zugrunde liegende Muster ist ähnlich.
Die Implikation ist weitreichend: Jede Modalität, die tokenisiert werden kann, kann Teil desselben Trainingsraums werden. Web-Video, egozentrische Aufnahmen, menschliche Demonstrationen, Teleoperation und On-Policy-Roboterdaten können alle zu einer gemeinsamen Repräsentation beitragen.
Die Einschränkung verlagert sich dann von “Kann das Modell das nutzen?” zu “Können wir die richtigen Beispiele in der richtigen Größenordnung beschaffen?”
“Man kann den Action-Raum wie Function-Calling für LLMs betrachten… man zerlegt es so und es unterscheidet sich nicht von dem, was Menschen für die nicht-physische Welt bauen – Agenten, die Sub-Agenten in einem Rahmen starten, der Tools bereitstellt. Jetzt ist der Rahmen physischer. Das macht es mächtig, weil man sich auf Web-Trainingsdaten verlassen kann, um einen guten Ausgangspunkt zu bekommen.”
— Jacek, Mitgründer, Distill Labs. Ansehen bei 15:14 →
📖 Weiterführende Lektüre: Tokenisierung erklärt · Inside the AI Agent Tech Stack · Wie man KI-Agenten baut: Vollständige Roadmap
3. VLAs und World Models brauchen unterschiedliche Daten – die Verwechslung kostet viel
Eine der schärfsten Unterscheidungen des Abends war die zwischen VLA-Training und World-Model-Training.
Wie Ankur es formulierte, ist ein VLA weitgehend ein Imitation-Learning-Problem. Man möchte saubere, erfolgreiche, hochwertige Trajektorien. Schlechte Demonstrationen können schaden.
Ein World Model ist anders. Es muss vorhersagen, was als nächstes passiert, wenn eine Aktion ausgeführt wird, was bedeutet, dass es nicht nur erfolgreiche Ergebnisse verstehen muss, sondern auch Fehler, Grenzfälle und Misserfolge. Wenn man ein World Model für die Planung oder als erlernten Simulator für Reinforcement Learning nutzen möchte, muss es die gesamte Bandbreite möglicher Zukünfte abbilden.
Daniel, Ingenieur bei Prometheus, der zuvor die World-Model-Arbeit bei 1X leitete, erklärte, warum das schwierig ist. Viele aktuelle World Models sind auf erfolgreiche Ergebnisse ausgerichtet. Wenn eine Trajektorie gezeigt wird, die kurz vor dem Scheitern steht, halluzinieren sie möglicherweise eine Wiederherstellung, anstatt den Fehler zu modellieren. In der Robotik ist das besonders gefährlich. Das Modell muss genau in den Momenten aktionskontrollierbar sein, in denen Kontakt, Greifen und Versagen am wahrscheinlichsten sind.
Die Erkenntnis: “Robotikdaten” sind kein generischer Eimer. Imitationsrichtlinien und World Models erfordern bewusst unterschiedliche Korpora.
“Man möchte wirklich ein World Model, das sehr aktionskontrollierbar ist… der entscheidende Moment beim Greifen eines Objekts. Wenn man dort Lücken hat, ist das ein wirklich schlechtes Zeichen.”
— Daniel, Prometheus, ehemals 1X. Ansehen bei 35:36 →
📖 Weiterführende Lektüre: Was ist KI-Modelltraining? · KI-Halluzination erklärt · Robotik-Datensätze
4. Die Datenhierarchie ist real: Web-Daten geben Breite, Roboterdaten geben Kontrolle
Ahmed, Ingenieur bei Agility Robotics, legte eine klare Signalhierarchie dar.
Teleoperationsdaten enthalten die stärksten Steuerinformationen, da sie den vollständigen Roboterzustand beinhalten. Menschliche Demonstrationen und egozentrische Videos tragen weniger direkte Steuerinformationen. Web-Video trägt auf der Low-Level-Steuerebene am wenigsten bei.
Das macht Web-Daten jedoch nicht weniger wichtig. Es macht ihre Rolle anders.
Web-Scale-Video lehrt Semantik, Kontext, Aufgabenstruktur, Objektvielfalt und allgemeines Weltwissen. Es hilft dem Modell zu verstehen, wie Räume, Werkzeuge, Menschen, Objekte und Ziele in enormer Variation aussehen. Was es nicht gut lehrt, ist die feinkörnige Physik eines bestimmten Roboterkörpers bei der Ausführung einer bestimmten Aktion.
Ankur gab die klarste Analogie: Man kann jedes Messi- oder Ronaldo-Video ansehen und Fußball tief verstehen, aber man kann immer noch nicht spielen, ohne zu üben. Web-Daten lehren das Spiel. On-Robot-Daten lehren den Körper.
Die praktische Datenbudget-Erkenntnis aus demselben Gespräch: Eine Stunde Web-Daten liefert ungefähr den übertragbaren Wert von fünf Minuten Teleoperationsdaten. Web-Daten ersetzen keine Teleop, aber starkes Web-Scale-Pretraining kann den Bedarf an teuren Roboterdaten reduzieren.
“Wir können viele Fußball-Videos von Messi oder Ronaldo ansehen, aber bis wir selbst üben, können wir nicht wirklich spielen. Das Verständnis der Aufgabe bekommen wir aus Web-Daten. Um sie tatsächlich auszuführen, brauchen wir On-Robot-Daten… vielleicht ist eine Stunde Web-Daten dasselbe wie fünf Minuten Teleop-Daten.”
— Ankur, Robotik-ML-Ingenieur, in persönlicher Eigenschaft. Ansehen bei 1:01:09 →
📖 Weiterführende Lektüre: Videodaten für KI · YouTube-Videos-Datensatz · Audio-Datensätze für KI · Bild-Datensätze
5. Es gibt noch keine zuverlässigen Skalierungsgesetze, daher wird Kurationsgeschwindigkeit zum Vorteil
Für LLMs hat die Branche die Kaplan- und Chinchilla-Skalierungsgesetze. Für VLAs und World Models war Daniel direkt: Die Robotik ist noch nicht so weit.
Teams können die Roboterleistung noch nicht zuverlässig als saubere Funktion von Web-Tokens, Teleop-Stunden, Deployment-Daten, Rechenleistung oder Modellgröße vorhersagen. Ein Teil der Herausforderung ist, dass Imitation Learning und World Modeling unterschiedliche Supervisionssignale verwenden. Ein anderer ist, dass die entscheidende Metrik der nachgelagerte Aufgabenerfolg ist, nicht der Pretraining-Verlust.
Daniel zog auch einen nützlichen Vergleich mit der Simulation autonomer Fahrzeuge. Bei selbstfahrenden Autos stoppt die Simulation oft, wenn Kontakt stattfindet. In der Robotik beginnt dort die eigentliche Komplexität. Greifen, Schieben, Rutschen, Verformen, Kollidieren und Erholen sind keine Grenzfälle. Sie sind die Aufgabe.
Bis bessere Skalierungsgesetze entstehen, haben Teams den Vorteil, die richtigen Beispiele am schnellsten zu finden und zu kuratieren: spezifische Szenen, Aufgabenfamilien, Objektinteraktionen, Misserfolge und kontaktreiche Momente. Das ist nicht nur eine Modellierungsherausforderung. Es ist eine Discovery– und Datenpipeline-Herausforderung.
“Skalierungsgesetze in Bezug auf FLOP- oder Token-Anzahl zu beantworten ist heute für LLMs üblich – Kaplan et al., die Chinchilla-Skalierungsgesetze. Wir stellen diese Fragen heute nicht wirklich wissenschaftlich für VLAs und World Models… Ich denke, die Antwort ist, dass wir noch nicht so weit sind, und wir wirklich dorthin gelangen sollten.”
— Daniel, Prometheus, ehemals 1X und Waymo. Ansehen bei 54:35 →
📖 Weiterführende Lektüre: Data Discovery · Beste KI-Trainingsdaten-Anbieter · LLM-Trainingsdaten
Was das für Ihre Robotik-Datenstrategie bedeutet
Das Panel kam zu einer klaren Schlussfolgerung:
Web-Scale-Daten geben Robotern ein breites Weltverständnis. On-Robot-Daten lehren sie, wie sie darin handeln. Je besser Ihr Pretraining-Korpus, desto weniger teure Roboterdaten brauchen Sie, um zuverlässige Ausführung zu erreichen.
Das erfordert drei Fähigkeiten, die die meisten Teams unterschätzen:
🌐 Web-Scale-Extraktion
Petabyte-skalierte Video-, Bild- und Audiosammlung aus dem offenen Web – nicht nur eingefrorene akademische Datensätze mit veralteten Taxonomien. Siehe Bright Data’s Web-Scale-Datenerfassungsinfrastruktur und individuelle Datenlösungen.
🔍 Visuelle Discovery jenseits der Schlüsselwortsuche
Die wertvollste Aufgabenvielfalt erscheint oft in Szenen, die nie in einem Titel, Tag oder einer Bildunterschrift beschrieben werden. Die Schlüsselwortsuche verfehlt einen Großteil des Long Tails. Erkunden Sie visuelle und semantische Discovery über die Discover API.
⚖️ Verteidigbare Herkunft
Textmodelle trainieren auf Billionen von Tokens. VLAs trainieren auf Billionen von Frames. Jeder Frame kann eine Lizenzierungs- und Herkunftsfrage aufwerfen, und der reale Robotereinsatz erhöht den Einsatz. Erfahren Sie mehr in unserem Trust Center und unseren ethischen Datenerfassungsrichtlinien.
Die Modelle konvergieren. Der Unterschied wird das Korpus: wie breit es ist, wie relevant es ist und ob Sie verteidigen können, woher es stammt.
Sie entwickeln ein VLA oder World Model?
Sprechen Sie mit unserem Team → über die Entdeckung und Beschaffung von Trainingsvideo im Web-Scale.
Erfahren Sie mehr über Bright Data für KI, erkunden Sie unser Videodatenangebot für VLAs oder durchsuchen Sie unsere fertigen Datensätze für Robotik, Computer Vision und multimodales Training.