>b's weblog

“Zu sagen was ist, bleibt die revolutionärste Tat.” (Rosa Luxemburg)

Verlorene Mitte: Wie Ignazio Cassis die Neutralität verspieltGefangen in Brüssel: Besuch bei Jacques Baud

DreamZero von NVIDIA versucht, nach dem Modell der transzendentalen Ästhetik der KdrV Vorstellung herzustellen – sie nennen die Vorstellung ein “World Action Model”

Da ich grade mit Bille abgelästert habe, dass nicht mal Ansätze erkenntbar sind, wie “KI” je Intelligenz entwickeln soll, hier der Hinweis auf Kollegen, die einen solchen Ansatz verfolgen, der – wenn man ihm genügend lange nachgeht – Richtung Intelligenz führen könnte. Es handelt sich um DreamZero, eine Idee, wie man Vorstellung in einem Roboter erzeugen könnte, Vorstellung von dem, was er macht:

State-of-the-art Vision-Language-Action (VLA) models excel at semantic generalization but struggle to generalize to unseen physical motions in novel environments. We introduce DreamZero, a World Action Model (WAM) built upon a pretrained video diffusion backbone. Unlike VLAs, WAMs learn physical dynamics by jointly predicting future world states and actions, using video as a dense representation of how the world evolves. By jointly modeling video and action, DreamZero learns diverse skills effectively from heterogeneous robot data without relying on repetitive demonstrations. This results in over 2x improvement in generalization to new tasks and environments compared to state-of-the-art VLAs in real-robot experiments. Crucially, through model and system optimizations, we enable a 14B autoregressive video diffusion model to perform real-time closed-loop control at 7Hz. Finally, we demonstrate two forms of cross-embodiment transfer: video-only demonstrations from humans or other robots yield over 42% improvement on unseen tasks with just 10–20 minutes of data. More surprisingly, DreamZero adapts to an entirely new robot (YAM) with only 30 minutes of play data while retaining zero-shot generalization.

Modernste Vision-Language-Action-Modelle (VLA) zeichnen sich durch semantische Generalisierung aus, haben jedoch Schwierigkeiten, auf unbekannte physikalische Bewegungen in neuen Umgebungen zu generalisieren. Wir stellen DreamZero vor, ein World Action Model (WAM), das auf einem vortrainierten Video-Diffusions-Backbone basiert. Im Gegensatz zu VLAs lernen WAMs physikalische Dynamiken, indem sie zukünftige Zustände und Aktionen der Welt gemeinsam vorhersagen und dabei Videos als dichte Darstellung der Entwicklung der Welt verwenden. Durch die gemeinsame Modellierung von Video und Aktion lernt DreamZero verschiedene Fähigkeiten effektiv aus heterogenen Roboterdaten, ohne sich auf sich wiederholende Demonstrationen zu verlassen. Dies führt zu einer mehr als doppelt so hohen Verbesserung der Generalisierung auf neue Aufgaben und Umgebungen im Vergleich zu modernsten VLAs in Realroboter-Experimenten. Entscheidend ist, dass wir durch Modell- und Systemoptimierungen ein 14B-autoregressives Videodiffusionsmodell in die Lage versetzen, eine Echtzeit-Regelung mit 7 Hz durchzuführen. Schließlich demonstrieren wir zwei Formen des Cross-Embodiment-Transfers: Nur-Video-Demonstrationen von Menschen oder anderen Robotern führen zu einer Verbesserung von über 42 % bei unbekannten Aufgaben mit nur 10 bis 20 Minuten Daten. Noch überraschender ist, dass sich DreamZero mit nur 30 Minuten Spieledaten an einen völlig neuen Roboter (YAM) anpasst und dabei die Zero-Shot-Generalisierung beibehält.

Die Idee von DreamZero verfolgt damit ein Bild, wie es Kant in der KdrV in der transzendentalen Ästhetik zeichnet. Klar, da fehlen noch Geruch, Haptik, Geschmack etc., wenn man nur ein Video nimmt. Aber immerhin.