KI auf jedem Gerät: Wie QPU Training auf kleinen Geräten möglich macht

Künstliche Intelligenz ist mächtig – aber auch hungrig nach Speicher und Rechenleistung. Auf kleinen Geräten wie Wearables oder Sensoren stoßen klassische Modelle an ihre Grenzen. Quantisierung spart Platz, indem Zahlenwerte im Modell mit weniger Bits gespeichert werden, kann aber beim Training die Genauigkeit schwächen. Quantized Parameter Updates (QPU) gehen einen Schritt weiter: Durch gezieltes stochastisches Runden nur beim Update bleiben Training und Genauigkeit stabil, während der Speicherbedarf deutlich sinkt. Das bedeutet: KI kann lokal lernen, sich an Nutzende anpassen und das datenschutzfreundlich und direkt auf dem Gerät.

Künstliche Intelligenz steckt heute in vielen Anwendungen – von Sprachassistenten bis zur Bilderkennung. Die zugrunde liegenden neuronalen Netze sind jedoch oft groß und benötigen viel Rechenleistung und Speicher. Genau hier liegt das Problem:

Viele Geräte im Alltag – etwa Sensoren, Mikrocontroller oder Wearables – haben nur sehr begrenzte Ressourcen. Klassische KI-Modelle lassen sich dort kaum einsetzen.

Wie kann KI trotzdem direkt auf solchen Geräten laufen oder sogar dort lernen?

Quantisierung: Weniger Bits, mehr Effizienz

Genau hier setzt die Quantisierung an. Die Grundidee ist einfach: Statt jeden Wert mit 32 Bit Genauigkeit zu speichern, verwendet man weniger Bits – zum Beispiel 16, 8 oder sogar nur 4 Bit.

Anschaulich lässt sich das mit dem Unterschied zwischen einem hochauflösenden Foto und einem Thumbnail vergleichen: Das Thumbnail enthält weniger Detailinformation, ist aber für viele Zwecke ausreichend und benötigt nur einen Bruchteil des Speicherplatzes.

Je nach Einsatz gibt es unterschiedliche Formate. Für viele Geräte (z. B. Mikrocontroller) sind einfache Zahlenformate besonders effizient, weil sie ohne aufwendige Hardware berechnet werden können.

Die Herausforderung hierbei: Rundungsfehler

Beim Reduzieren der Genauigkeit müssen Werte gerundet werden. Das Problem: Kleine Rundungsfehler können sich summieren und das Ergebnis verfälschen.

Eine Lösung ist stochastisches Runden: Statt eine feste Regel anzuwenden, wird die Rundung zufällig entschieden. Allerdings nicht willkürlich, sondern gewichtet nach dem Abstand zur nächstliegenden Zahl. Ein Wert, der näher an der oberen Grenze liegt, wird mit höherer Wahrscheinlichkeit aufgerundet. Liegt er näher an der unteren Grenze, wird eher abgerundet.

Einzelne Werte können so zwar nach oben oder unten abweichen, im Durchschnitt bleibt der Gesamtwert jedoch erhalten. Das Resultat: Der Zielkonflikt wird aufgelöst, mit wenig Speicher kann dennoch sinnvoll trainiert werden.

Inferenz vs. Training auf Edge-Geräten

Für die Anwendung eines KI-Modells (Inferenz) wird Quantisierung bereits erfolgreich eingesetzt, beispielsweise auf Smartphones.

Beim Training ist es deutlich schwieriger: Es braucht mehr Berechnungen und deutlich mehr Speicher und kleine, wichtige Werte können durch Rundung verloren gehen. Viele bisherige Ansätze haben Nachteile: Entweder wird zwar Speicher gespart, aber trotzdem eine hochpräzise Kopie benötigt oder die Stabilität des Trainings leidet. Es fehlt also eine Lösung, die Speicher spart und zuverlässig trainiert.

Genau hier setzt der neue Ansatz QPU an.

Neuer Ansatz: Quantized Parameter Updates (QPU)

Ein Forschungsteam der Universität Duisburg-Essen hat mit QPU einen neuen Ansatz entwickelt, um das Training von neuronalen Netzen auf kleinen Geräten effizienter zu machen. Die Idee dahinter: Modelle werden von Anfang an kompakt gespeichert, besonders empfindliche Berechnungen bleiben präzise, und Quantisierung wird gezielt dort eingesetzt, wo sie den Lernprozess am wenigsten beeinträchtigt. Ein zentraler Punkt ist dabei, dass das Runden nur beim Aktualisieren der Modellparameter angewendet wird – nicht überall im Trainingsprozess.

Getestet wurde die Methode mit einem Standard-Datensatz, und die Ergebnisse sprechen für sich: Das Modell erreicht eine hohe Genauigkeit bei deutlich reduziertem Speicherbedarf – 92 % Genauigkeit bei nur 57 % des ursprünglichen Speicherplatzes. Selbst bei einer Reduktion auf 50 % Speicher gingen die Verluste nur geringfügig zurück (ca. 1,5 %). Im Vergleich zu bestehenden Methoden liefert QPU ähnliche Ergebnisse, aber ohne zusätzlichen Speicherbedarf. Ein wichtiger Faktor ist dabei das stochastische Runden, das das Training stabilisiert und Rundungsfehler effektiv ausgleicht.

Was bedeutet das für die Praxis?

Mit QPU wird das Training von neuronalen Netzen auf kleinen Geräten realistischer. Die Methode spart Speicher und Rechenleistung, ohne die Trainingsqualität wesentlich zu beeinträchtigen. Dadurch werden neue Anwendungen möglich: Wearables können sich individuell an ihre Nutzer anpassen, Sensoren lernen direkt vor Ort dazu, und Systeme können KI lokal ausführen – ganz ohne Cloud, also besonders datenschutzfreundlich.

Fazit

Mit Quantized Parameter Updates (QPU) wird das Training von KI auf kleinen Geräten deutlich effizienter. Durch gezieltes stochastisches Runden im Update-Schritt lassen sich Speicherbedarf und Rechenaufwand stark reduzieren, ohne dass die Genauigkeit leidet. Praktisch bedeutet das: Geräte, die bisher nur vortrainierte Modelle nutzen konnten, können künftig selbstständig lernen und sich an ihre Nutzer anpassen – schnell, lokal und datenschutzfreundlich. Die Quantisierung ist dabei nicht nur eine technische Verbesserung, sondern der Schlüssel, KI direkt zu den Anwendern zu bringen.

Der Autor

Leo Buron

Wissenschaftlicher Mitarbeiter (UDE)

Leo Buron

E-Mail

Zurück