Neuronale Netze sind mächtig – aber auch hungrig nach Speicher und Rechenleistung. Auf kleinen Geräten wie Wearables oder Sensoren stoßen klassische Modelle an ihre Grenzen. Quantisierung spart Platz, indem Zahlenwerte im Modell mit weniger Bits gespeichert werden, kann aber beim Training die Genauigkeit schwächen. Quantized Parameter Updates (QPU) gehen einen Schritt weiter: Durch gezieltes stochastisches Runden nur beim Update bleiben Training und Genauigkeit stabil, während der Speicherbedarf deutlich sinkt. Das bedeutet: KI kann lokal lernen, sich an Nutzende anpassen und das datenschutzfreundlich und direkt auf dem Gerät.
Künstliche Intelligenz steckt heute in vielen Anwendungen – von Sprachassistenten bis zur Bilderkennung. Die zugrunde liegenden neuronalen Netze sind jedoch oft groß und benötigen viel Rechenleistung und Speicher. Genau hier liegt das Problem:
Viele Geräte im Alltag – etwa Sensoren, Mikrocontroller oder Wearables – haben nur sehr begrenzte Ressourcen. Klassische KI-Modelle lassen sich dort kaum einsetzen.
Wie kann KI trotzdem direkt auf solchen Geräten laufen oder sogar dort lernen?
Was sind neuronale Netze?
Neuronale Netze sind die Grundlage vieler moderner KI-Anwendungen – zum Beispiel für Sprach- oder Bilderkennung. Sie sind vom menschlichen Gehirn inspiriert und bestehen aus vielen einfachen Recheneinheiten („Neuronen“), die Informationen schrittweise verarbeiten.
Ein neuronales Netz besteht aus drei zentralen Schichten:
1. Eingabeschicht: Hier werden die Rohdaten eingespeist (z. B. Bild- oder Sensordaten).
2. Verdeckte Schichten: Hier findet die Verarbeitung statt und werden Muster erkannt.
3. Ausgabeschicht: Hier wird das Ergebnis ausgegeben (z. B. eine Vorhersage oder Entscheidung).
Das Besondere: Neuronale Netze werden nicht programmiert, sondern lernen aus Daten.
Wie lernen neuronale Netze?
Neuronale Netze lernen in einem wiederholten Prozess:
Vorhersage: Das Netz verarbeitet Eingabedaten und gibt ein Ergebnis aus.
Vergleich: Dieses Ergebnis wird mit der richtigen Antwort verglichen.
Anpassung: Das Netz passt seine Parameter an, um den Fehler zu verringern.
Dieser Ablauf wird viele Male wiederholt, so werden die Vorhersagen Schritt für Schritt besser.
Warum neuronale Netze so viel Speicher brauchen
Neuronale Netze bestehen aus vielen Parametern, die während des Trainings angepasst werden. Diese werden in der Regel als hochpräzise Zahlen gespeichert.
Das führt dazu, dass selbst kleine Modelle mehrere Megabyte Speicher benötigen, beim Training zusätzlich weitere Daten anfallen und klassische Hardware schnell an ihre Grenzen stößt.
Quantisierung: Weniger Bits, mehr Effizienz
Genau hier setzt die Quantisierung an. Die Grundidee ist einfach: Statt jeden Wert mit 32 Bit Genauigkeit zu speichern, verwendet man weniger Bits – zum Beispiel 16, 8 oder sogar nur 4 Bit.
Anschaulich lässt sich das mit dem Unterschied zwischen einem hochauflösenden Foto und einem Thumbnail vergleichen: Das Thumbnail enthält weniger Detailinformation, ist aber für viele Zwecke ausreichend und benötigt nur einen Bruchteil des Speicherplatzes.
Je nach Einsatz gibt es unterschiedliche Formate. Für viele Geräte (z. B. Mikrocontroller) sind einfache Zahlenformate besonders effizient, weil sie ohne aufwendige Hardware berechnet werden können.
Die Herausforderung hierbei: Rundungsfehler
Beim Reduzieren der Genauigkeit müssen Werte gerundet werden. Das Problem: Kleine Rundungsfehler können sich summieren und das Ergebnis verfälschen.
Eine Lösung ist stochastisches Runden: Werte werden nicht immer gleich gerundet, sondern mit einer bestimmten Wahrscheinlichkeit. So gleichen sich Fehler im Durchschnitt aus, das ist besonders wichtig beim Training von KI-Modellen.
Inferenz vs. Training auf Edge-Geräten
Für die Anwendung eines KI-Modells (Inferenz) wird Quantisierung bereits erfolgreich eingesetzt, beispielsweise auf Smartphones.
Beim Training ist es deutlich schwieriger: Es braucht mehr Berechnungen und deutlich mehr Speicher und kleine, wichtige Werte können durch Rundung verloren gehen. Viele bisherige Ansätze haben Nachteile: Entweder wird zwar Speicher gespart, aber trotzdem eine hochpräzise Kopie benötigt oder die Stabilität des Trainings leidet. Es fehlt also eine Lösung, die Speicher spart und zuverlässig trainiert.
Genau hier setzt der neue Ansatz QPU an.
Neuer Ansatz: Quantized Parameter Updates (QPU)
Ein Forschungsteam der Universität Duisburg-Essen hat mit QPU einen neuen Ansatz entwickelt, um das Training von neuronalen Netzen auf kleinen Geräten effizienter zu machen. Die Idee dahinter: Modelle werden von Anfang an kompakt gespeichert, besonders empfindliche Berechnungen bleiben präzise, und Quantisierung wird gezielt dort eingesetzt, wo sie den Lernprozess am wenigsten beeinträchtigt. Ein zentraler Punkt ist dabei, dass das Runden nur beim Aktualisieren der Modellparameter angewendet wird – nicht überall im Trainingsprozess.
Getestet wurde die Methode mit einem Standard-Datensatz, und die Ergebnisse sprechen für sich: Das Modell erreicht eine hohe Genauigkeit bei deutlich reduziertem Speicherbedarf – 92 % Genauigkeit bei nur 57 % des ursprünglichen Speicherplatzes. Selbst bei einer Reduktion auf 50 % Speicher gingen die Verluste nur geringfügig zurück (ca. 1,5 %). Im Vergleich zu bestehenden Methoden liefert QPU ähnliche Ergebnisse, aber ohne zusätzlichen Speicherbedarf. Ein wichtiger Faktor ist dabei das stochastische Runden, das das Training stabilisiert und Rundungsfehler effektiv ausgleicht.
Was bedeutet das für die Praxis?
Mit QPU wird das Training von neuronalen Netzen auf kleinen Geräten realistischer. Die Methode spart Speicher und Rechenleistung, ohne die Trainingsqualität wesentlich zu beeinträchtigen. Dadurch werden neue Anwendungen möglich: Wearables können sich individuell an ihre Nutzer anpassen, Sensoren lernen direkt vor Ort dazu, und Systeme können KI lokal ausführen – ganz ohne Cloud, also besonders datenschutzfreundlich.
Fazit
Mit Quantized Parameter Updates (QPU) wird das Training von KI auf kleinen Geräten deutlich effizienter. Durch gezieltes stochastisches Runden im Update-Schritt lassen sich Speicherbedarf und Rechenaufwand stark reduzieren, ohne dass die Genauigkeit leidet. Praktisch bedeutet das: Geräte, die bisher nur vortrainierte Modelle nutzen konnten, können künftig selbstständig lernen und sich an ihre Nutzer anpassen – schnell, lokal und datenschutzfreundlich. Die Quantisierung ist dabei nicht nur eine technische Verbesserung, sondern der Schlüssel, KI direkt zu den Anwendern zu bringen.

