Föderiertes Lernen trifft Generative KI: Die Zukunft intelligenter Roboterflotten

Roboter in Kliniken, Fabriken und Haushalten sammeln wertvolle Erfahrungen, dürfen diese aus Datenschutzgründen aber nicht zentral teilen. Föderiertes Lernen könnte dieses Dilemma lösen: Es ermöglicht geteiltes Lernen ohne Datenabfluss – und verbindet damit das Potenzial generativer KI mit striktem Datenschutz.

Tausende Roboter arbeiten zukünftig wohl weltweit in Krankenhäusern, Fabriken und privaten Haushalten. Jeder Roboter sammelt dann wertvolle Erfahrungen – doch aus Datenschutzgründen dürfen diese Daten nie einen zentralen Server erreichen. Trotzdem sollten alle Roboter voneinander lernen und sich gemeinsam verbessern. Was zunächst nach einem Widerspruch klingt, könnte durch föderiertes Lernen realisierbar werden.

Diese Technologie verspricht, zwei der wichtigsten Trends der modernen KI für die Robotik zu vereinen: die beeindruckenden Fähigkeiten generativer KI-Modelle und den Schutz sensibler Daten. Genau diese Kombination zweier unterschiedlicher Methoden ist eine der spannendsten Forschungslücken der kommenden Jahre [1].

“If we can have these general purpose models that can serve as the foundation for a huge range of applications that would actually allow us to get robots to the next level, it would get us the kind of generalist robots that we, like, see in science fiction, basically.” (Sergey Levine, Associate Professor, UC Berkeley and co-founder of Physical Intelligence)

Das Versprechen und das Problem

In den letzten zwei Jahren hat die Robotik einen gewaltigen Sprung gemacht. Modelle wie RT-2 von Google DeepMind [2], OpenVLA von Stanford [3] und π0 von Physical Intelligence [4] können mittlerweile natürliche Sprachanweisungen verstehen, Kamerabilder interpretieren und daraus präzise Roboterbewegungen generieren. Für diese generatien Robotik-Modelle gibt es jedoch ein grundätzliches Problem: Man braucht viele Trainingsdaten. Doch gute Trainingsdaten sind häufig Mangelware. Wie könnte man die Daten sammeln, wenn viele Roboter in sensiblen Umgebungen bzw. Anwendungen eingesetzt werden, so dass diese Daten dritten nicht zugänglich gemacht werden dürfen?

Das Problem liegt dann an einem wesentlichen Punkt: All diese bisherigen Durchbrüche basieren auf zentralem Training. Das bedeutet, große Datenmengen von hunderten oder tausenden Robotern werden an einem Ort gesammelt und verarbeitet. Das funktioniert in Forschungslaboren hervorragend, scheitert aber in der realen Welt an drei fundamentalen Barrieren:

Datenschutz: Chirurgische Roboter in Krankenhäusern interagieren mit Patientendaten. Haushaltsroboter erfassen intimste Lebensgewohnheiten. Diese Informationen können weder technisch noch rechtlich einfach in eine Cloud hochgeladen werden [5].

Wettbewerb: Automobilhersteller wollen proprietäre Fertigungsabläufe nicht mit Konkurrenten teilen. Logistikunternehmen behandeln Optimierungsstrategien als Geschäftsgeheimnisse.

Regulierung: Die europäische GDPR und ähnliche Gesetze weltweit legen strenge Grenzen fest, wo und wie persönliche Daten gespeichert werden dürfen.

Die zentrale Frage lautet dann also: Wie können Roboter gemeinsam lernen, ohne ihre Daten zu teilen?

Föderiertes Lernen: Lernen ohne Daten zu teilen

Die Grundidee des föderierten Lernens ist elegant: Anstatt Daten zu sammeln, bleiben sie dort, wo sie entstehen. Nur das Wissen wird geteilt [6], und zwar in Form von gelernten Gewichten.

Der konkrete Ablauf

Am Beispiel einer Flotte von 1.000 Lagerrobotern lässt sich der Prozess veranschaulichen:

Lokales Training: Jeder Roboter trainiert sein eigenes neuronales Netz mit den Daten vor Ort.
Modell-Updates senden: Statt Rohdaten hochzuladen, berechnet jeder Roboter nur die Änderungen am neuronalen Netz – die Gradienten. Das sind typischerweise einige hundert Megabyte statt mehrerer Terabyte Rohdaten.
Intelligente Aggregation: Ein zentraler Server kombiniert diese Updates. Dabei werden fortgeschrittene Algorithmen wie FedProx [7] oder FedOpt [8] eingesetzt, die mit unterschiedlichen “Lektionen” der Roboter umgehen können.
Verbessertes Modell zurücksenden: Das resultierende globale Modell wird an alle Roboter zurückgeschickt.

Die mathematischen Grundlagen

Der klassische FedAvg-Algorithmus berechnet den gewichteten Durchschnitt der lokalen Gradienten [6]. Dies war der erste Ansatz zum föderierten Lernen und ist immer noch ein häufig benutzte klassische Technik. Sie kann jedoch zu Problemen führen, und zwar wenn sich die verteilten Modelle im Rahmen des Trainings “auseinanderentwickeln”. Ihre Kombination ergibt dann kein sinnvolles “gebündeltes Wissen”, sondern löscht sich gegenseitig aus. FedProx fügt daher zur Abhilfe einen “Proximal Term” hinzu: μ/2||w – w^t||² [7]. Dieser mathematische Trick verhindert, dass lokale Modelle zu weit vom globalen Modell abdriften. In heterogenen Szenarien verbessert FedProx die Genauigkeit um 22% gegenüber einfachem FedAvg [7]. Weitere Optimierungen sind z.B, die Nutzung forschrittlicher Optimierungsmethoden. FedOpt nutzt beispielsweise adaptive Optimierungsverfahren wie Adam auf dem Server [8] und erreicht 1.1× schnellere Konvergenz bei deutlich weniger manueller Hyperparameter-Optimierung.

Das Kommunikationsproblem: 28 Gigabyte pro Runde

Moderne KI-Modelle sind riesig. OpenVLA hat 7 Milliarden Parameter [3]. Bei 32-Bit Fließkommazahlen entspricht das dann dementsprechend 28 Gigabyte pro Kommunikationsrunde, wenn alle Gewichte zwischen Server und lokalen Client ausgetauscht werden. Bei 100 Trainingsrunden wären das also 2.8 Terabyte – völlig unpraktikabel für mobile Roboter mit begrenzter Bandbreite. Hier müssen Methoden zum Einsatz kommen, welche die Menge der ausgetauschten Daten reduziert.

Clevere Kompressionsstrategien

Die Forschung hat mehrere effektive Lösungen entwickelt. Die zunächst einfachste ist die Verwendung anderer Datenformate mit geringerem Umfang. Dies bezeichnet man als Quantisierung. Z.B. werden statt 32-Bit-Zahlen 8-Bit oder sogar nur 1-Bit-Zahlen verwendet [9]. 8-Bit-Quantisierung reduziert das Datenvolumen um 75%, 1-Bit-Quantisierung sogar um 96.875% – bei einem Genauigkeitsverlust von weniger als 1%. Q-Chain FL kombiniert Quantisierung mit Datenschutz-Garantien und erreicht 62.5% weniger Kommunikation als normales FedAvg bei gleichzeitig 33.3% schnellerer Konvergenz [10].

Ein anderer Ansatz ist Sparsification. Hier werden nur die wichtigsten Gradienten gesendet – typischerweise die größten 10%. Mit “Error Feedback” werden die nicht gesendeten Gradienten gespeichert und in der nächsten Runde nachgereicht, was die Kommunikationsfrequenz um 30-50% reduziert.

Kombiniert man diese Techniken intelligent, lassen sich die Kommunikationskosten um das 100- bis 1000-fache reduzieren [9]. Aus unpraktikablen 28 GB werden handhabbare 28-280 MB pro Runde.

Datenschutz: Mehr als nur ein Versprechen

Föderiertes Lernen verspricht Datenschutz – aber wie wird das konkret garantiert?

Differential Privacy: Mathematisch bewiesene Privatsphäre

Das Konzept der Differential Privacy liefert eine mathematisch präzise Definition: Die Daten eines einzelnen Roboters sollen das Gesamtmodell nicht merklich beeinflussen können [11]. Formal ausgedrückt erfüllt ein Algorithmus M die (ε, δ)-differentielle Privatsphäre, wenn für zwei Datensätze D und D’, die sich nur in den Daten eines Roboters unterscheiden, gilt:

Pr[M(D) ∈ S] ≤ e^ε × Pr[M(D’) ∈ S] + δ

Die Parameter haben konkrete Bedeutungen:

– ε (epsilon): Das “Privatsphäre-Budget”. Je kleiner, desto stärker der Schutz. Werte unter 1 gelten als starke Privatsphäre. Google’s Gboard nutzt beispielsweise ε ≈ 0.81 [11].

– δ (delta): Eine kleine Fehlerwahrscheinlichkeit, typischerweise 10^-5 oder kleiner.

Der Trade-off ist messbar: Starke Privatsphäre (ε < 1) kostet 5-15% Genauigkeit, moderate Privatsphäre (ε = 1-5) nur 2-5% [11]. Interessanterweise kann das Rauschen manchmal sogar die Genauigkeit verbessern – in medizinischen Bildanalysen war ein Modell mit Differential Privacy 6.78% besser als ohne [11].

Secure Aggregation und Homomorphic Encryption

Mit Secure Aggregation sieht der Server nur die Summe aller Updates, nicht die individuellen Beiträge [12]. Google’s SecAgg-Protokoll verursacht etwa 20% zusätzliche Rechenzeit – ein akzeptabler Preis für echten Datenschutz.

Homomorphe Verschlüsselung ermöglicht Berechnungen auf verschlüsselten Daten, ohne sie zu entschlüsseln [13]. Der Preis ist jedoch hoch: 50-100× langsamere Ver-/Entschlüsselung und 10-32× größere Nachrichten. Diese Methode wird daher nur für hochsensible Anwendungen eingesetzt.

Die generative KI-Revolution in der Robotik

Parallel zur Entwicklung des föderierten Lernens hat die Robotik eine generative KI-Revolution erlebt. Die neue Generation von Vision-Language-Action (VLA) Models vereint drei fundamentale Fähigkeiten in einem System.

RT-2: Der Durchbruch von Google DeepMind

Im Juli 2023 präsentierte Google DeepMind RT-2 [2] und setzte neue Maßstäbe. Die Kernidee: Ein riesiges Vision-Language-Modell (PaLI-X mit 55 Milliarden Parametern), das auf Internet-Daten trainiert wurde, wird für Robotik adaptiert. Roboter-Aktionen werden als Text-Token dargestellt – für einen 7-Freiheitsgrade-Roboterarm wird jeder Freiheitsgrad in 256 diskrete Bins unterteilt [2].

RT-2 erreichte 62% Erfolgsrate bei völlig neuen Aufgaben, verglichen mit 32% bei dem Vorgänger RT-1 [2]. Noch bemerkenswerter waren die emergenten Fähigkeiten – der Roboter versteht beispielsweise “Lege die Banane auf die Summe von 2 + 1” und führt die Aktion korrekt aus [2].

Der Haken: Das Training benötigte 64 A100-GPUs für 15 Tage. Alle Daten wurden zentral gesammelt – für föderiertes Lernen völlig ungeeignet.

OpenVLA: Die Open-Source-Alternative

Im Juni 2024 veröffentlichten Stanford, UC Berkeley und Toyota Research Institute OpenVLA – das erste echte Open-Source-VLA-Modell [3]. Mit 7 Milliarden Parametern ist es 7 mal kleiner als RT-2-X, erreicht aber 16.5% bessere Erfolgsraten durch clevere Architektur [3].

Das Modell wurde auf dem Open X-Embodiment-Datensatz trainiert: 970.000 Roboter-Demonstrationen von 22 verschiedenen Robotertypen aus 21 Institutionen [14]. OpenVLA unterstützt LoRA-Finetuning [15], wodurch Anpassungen auf Consumer-GPUs möglich werden. Statt 28 GB werden nur etwa 4 GB Speicher benötigt [3].

Aber auch OpenVLA wurde zentral trainiert. Die 970.000 Demonstrationen wurden an einem Ort gesammelt und verarbeitet.

π0: Kontinuierliche Steuerung

Im Oktober 2024 präsentierte Physical Intelligence π0 – das erste VLA-Modell mit kontinuierlicher Aktionsgenerierung [4]. Statt diskreter Token generiert π0 kontinuierliche Werte durch Flow Matching, eine Alternative zu Diffusion-Modellen. Das ermöglicht präzisere Kontrolle bei 50 Hz [4].

Die Fähigkeiten sind beeindruckend: π0 kann autonom Wäsche falten, Tische abräumen, Kartons zusammenbauen und Einkaufstüten packen [4]. Für neue Aufgaben werden nur 1-20 Stunden Trainingsdaten benötigt [4]. Im Februar 2025 wurde π0 Open Source [16] – ein wichtiger Schritt für die Forschungscommunity.

Die kritische Beobachtung

Hier zeigt sich die zentrale Forschungslücke: Keines dieser beeindruckenden Modelle nutzt bisher föderiertes Lernen [1]. Alle basieren auf zentraler Datenaggregation. Die Gründe sind nachvollziehbar: Foundation Models brauchen riesige, diverse Datensätze, und zentrale Sammlung ist der einfachste und direkteste Weg [1] – was eine direkte Schwäche des ANsatzes darstellt.

In Zukunft wird erwartet, das Roboter in Krankenhäuser, Privathaushalte oder sensiblen Fabriken eingesetzt werden. Auch die Datenschutzregulierungen werden immer strenger. Weiterhin ist verständlich, dass Firmen proprietäre Daten nicht teilen wollen, weil diese in häufig wesentliche Geschäftsgeheimnisse enthalten. Woher sollen also diese Daten stammen? Bisher existiert kein System für föderiertes Training von komplexen Modellen wie VLA von Grund auf [1].

Cross-Embodiement-Learning: Wenn ein Roboter etwas kann, kann es (vielleicht) auch der andere

Ein weiterer faszinierender Aspekt ist Cross-Embodiment Learning – die Fähigkeit eines einzigen KI-Modells, völlig unterschiedliche Roboter zu steuern [14]. Im August 2024 präsentierte UC Berkeley CrossFormer – die erste Policy, die radikal unterschiedliche Roboter mit identischen Netzwerkgewichten steuert [18]. Trainiert auf 900.000 Trajektorien von 20 verschiedenen Robotern: Manipulatoren, mobile Roboter, Drohnen und vierbeinige Roboter [18] ist dieses Modell in der Lage, gelernte Fähigkeiten zu verallgemeinern. Die Architektur ist dabei üebraus elegant: Modality-specific Tokenizers wandeln jeden Sensortyp in Tokens um. Ein gemeinsamer Transformer verarbeitet alle Tokens. Separate Action Heads erzeugen die spezifischen Outputs für jeden Robotertyp [18].

CrossFormer erreicht die gleiche Erfolgsrate wie spezialisierte Policies und übertrifft vorherige Cross-Embodiment-Methoden um das Dreifache. Das System steuert sogar bimanuale Roboter mit 50 Hz [18].

Das Datenschutz-Dilemma

Open X-Embodiment mit über 1 Million Trajektorien von 21 Institutionen [14] zeigt eindeutig: Daten-Pooling beschleunigt Fortschritt dramatisch. Doch zentrale Datenaggregation limitiert auch hier wieder die Teilnahme von Krankenhäusern, Privathaushalten, Fabriken und Wettbewerbern in der Zukunft. Wie bei den anderen Ansätzen könnte föderiertes Lernen diese Kollaboration ermöglichen, während Daten lokal bleiben – aber keine große Implementierung existiert bisher [1].

Warum föderiertes Lernen für Robotik funktioniert

Trotz der bisher fehlenden Methoden und Implementierungen gibt es überzeugende Gründe, warum föderiertes Lernen und Robotik gut zusammenpassen:

Datenschutz ermöglicht neue Kooperationen

Mehrere Krankenhäuser wollen gemeinsam chirurgische Assistenzroboter trainieren, doch HIPAA verbietet das Teilen von Patienteninteraktionsdaten [5]. Mit föderiertem Lernen teilen Krankenhäuser nur Modell-Updates, nicht Rohdaten. Q-Chain FL erreicht einen Gradient-Matching-Loss unter 0.15, was keine messbare Informationsleckage bedeutet [10].

Heterogene Plattform-Integration

In Roboterflotten existieren extreme Hardware-Unterschiede. Das HydraFL-Framework ermöglicht, dass Clients Architekturen passend zu ihrer Rechenkapazität trainieren [19]. Das Ergebnis: 95-98% der zentralisierten Genauigkeit bei Toleranz für 4-8× Variation in Rechenkapazität [19].

Dateneffizienz und kontinuierliches Lernen

PrivateKT (Private Knowledge Transfer) reduziert die Performance-Lücke zwischen zentral und föderal um 84% – unter strenger Differential Privacy [20]. Für autonome Roboter-Navigation zeigt Fed-EC: 23 mal Kommunikationsgrößen-Reduktion pro Roboter [21]. Ein wesentliches Problem bei kontinuierlichem Lernen ist das katastrophale Vergessen: neu erlernte Fähigkeiten “überschreiben” die bisher gelernten. Federated Continual Learning mildert diesen Effekt jedoch ab. In einem Versuch dazu konnte gezeigt werden, dass 82-87% Genauigkeit bei der ersten Aufgabe erhalten bleiben, während die zweite mit 79-84% Genauigkeit gelernt wird [22].

Fazit: Eine Technologie an der Schwelle

Die Analyse zeigt einen faszinierenden Stand: Alle technologischen Bausteine existieren. Föderiertes Lernen ist ausgereift [6][7][8]. Generative Roboter-KI funktioniert beeindruckend [2][3][4]. Was fehlt, ist aber die Kombination. Obwohl sowohl föderiertes Lernen als auch generative KI für Roboter große Fortschritte gemacht haben, wird beides noch nicht zusammen verwendet [1]. Das ist nicht nur eine akademische Lücke – es ist eine praktische Notwendigkeit für die kommenden Jahre.

Tesla’s Plan für 10.000 Optimus-Roboter pro Monat ist zwar noch Science-Fiction [17], doch es zeichnet sich ab das Roboter in vielen Lebensbereichen in der Zukunft eine größere Rolle spiele werden. Roboter in Krankenhäusern, Privathaushalten und sensiblen Fabriken sind dann die Realität – es werden also große mengen an Daten zur Verfügung stehen – auf die jedoch nicht zugegriffen werden kann.

Die nächsten 2-3 Jahre werden zeigen, ob die Robotik-Community diese Herausforderung mit Hilfe des föderierten Lernens überwindet. Die technologischen, wirtschaftlichen und regulatorischen Treiber sind jedenfalls klar.

Quellen

[1] Federated Learning for Large-Scale Cloud Robotic Manipulation: Opportunities and Challenges. arXiv:2507.17903, 2025.

[2] RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. Google DeepMind, 2023.

[3] Kim, S., et al. OpenVLA: An Open-Source Vision-Language-Action Model. arXiv:2406.09246, 2024.

[4] Physical Intelligence π0: Our First Generalist Policy. Physical Intelligence Company, 2024.

[5] TechDispatch #1/2025 – Federated Learning. European Data Protection Supervisor, 2025.

[6] McMahan, B., et al. Communication-Efficient Learning of Deep Networks from Decentralized Data. AISTATS, 2017.

[7] Li, T., et al. Federated Optimization in Heterogeneous Networks. MLSys, 2020.

[8] Reddi, S., et al. Adaptive Federated Optimization. ICLR, 2021.

[9] Efficient Distributed Training through Gradient Compression. arXiv:2502.07634, 2025.

[10] Quantization-based chained privacy-preserving federated learning. Scientific Reports, Nature, 2025.

[11] Federated Learning with Formal Differential Privacy Guarantees. Google Research, 2021.

[12] Bonawitz, K., et al. Practical Secure Aggregation for Privacy-Preserving Machine Learning. CCS, 2017.

[13] Cheon, J.H., et al. Homomorphic Encryption for Arithmetic of Approximate Numbers. ASIACRYPT, 2017.

[14] Open X-Embodiment: Robotic Learning Datasets and RT-X Models. ICRA, 2024.

[15] Hu, E., et al. LoRA: Low-Rank Adaptation of Large Language Models. ICLR, 2022.

[16] Open Sourcing π0. Physical Intelligence Company, February 2025.

[17] Tesla Optimus Production Plans. Multiple industry sources, 2024-2025.

[18] CrossFormer: Scaling Cross-Embodied Learning. UC Berkeley, arXiv:2408.11812, 2024.

[19] HydraFL: Hybrid Federated Learning. IEEE ICRA, 2023.

[20] Differentially private knowledge transfer for federated learning. Nature Communications, 2023.

[21] Fed-EC: Bandwidth-Efficient Clustering-Based Federated Learning for Autonomous Visual Robot Navigation. arXiv:2411.04112, 2024.

[22] Federated Continual Learning for Socially Aware Robotics. arXiv:2201.05527, 2022.

[23] Blockchain-based federated learning algorithm. SAGE Journals, 2025.

[24] FedSense for Remote Sensing Foundation Models. arXiv, 2025.

Der Autor

Prof. Dr. Hendrik Wöhrle

Leitung Smart Embedded Systems (Fraunhofer IMS)

Prof. Dr. Hendrik Wöhrle

E-Mail

Zurück