On-device Sprachmodell-Inferenz ## Was ist On-device Sprachmodell-Inferenz? On-device Sprachmodell-Inferenz bedeutet, dass ein KI-Sprachmodell direkt auf einem lokalen Gerät – wie einem Smartphone, Laptop oder eingebetteten System – ausgeführt wird, anstatt Anfragen an einen entfernten Cloud-Server zu senden. Das Gerät selbst verarbeitet den Text (oder andere Eingaben), erzeugt Antworten und führt alle Berechnungen durch, ohne eine Internetverbindung zu benötigen. Stell dir vor, du hast einen persönlichen Assistenten, der vollständig in deinem Gerät lebt: Er schläft nie, braucht keine Verbindung nach Hause und teilt deine Gespräche mit niemandem. ## Warum ist das wichtig? Cloud-basierte Modelle sind leistungsstark, aber sie haben Nachteile: - Deine Eingaben verlassen dein Gerät und können protokolliert oder eingesehen werden - Eine zuverlässige Internetverbindung ist erforderlich - Jede Anfrage verursacht Latenz durch Netzwerkverzögerungen - Der Betrieb großer Server verbraucht erheblich Energie On-device Inferenz löst diese Probleme, indem die Verarbeitung lokal gehalten wird. ## Kernkonzepte ### Modellkomprimierung Große Sprachmodelle (LLMs) haben Milliarden von Parametern und passen normalerweise nicht auf Consumer-Hardware. Um sie auf Geräten einsetzbar zu machen, nutzen Forscher mehrere Techniken: - **Quantisierung** – Reduzierung der Präzision der Modellgewichte (z. B. von 32-Bit-Gleitkommazahlen auf 4-Bit-Ganzzahlen), wodurch Speicher gespart und Berechnungen beschleunigt werden - **Pruning** – Entfernung von Gewichten oder ganzen Neuronen, die wenig zum Output beitragen - **Destillation** – Training eines kleineren „Schüler"-Modells, das das Verhalten eines größeren „Lehrer"-Modells nachahmt ### Hardware-Beschleuniger Moderne Geräte besitzen spezialisierte Chips, die KI-Workloads effizient bewältigen: - **GPU (Graphics Processing Unit)** – Ursprünglich für Grafik entwickelt, aber hervorragend geeignet für die parallelen Matrixberechnungen, die neuronale Netze benötigen - **NPU / Neural Engine** – Dedizierte Prozessoren, die für Tensor-Operationen optimiert sind (z. B. Apple Neural Engine, Qualcomm Hexagon) - **CPU-SIMD-Erweiterungen** – Instruktionssätze wie ARM NEON oder x86 AVX, die mehrere Datenpunkte gleichzeitig verarbeiten ### Inferenz-Engines Eine Inferenz-Engine ist die Softwareschicht, die ein trainiertes Modell nimmt und es auf einem bestimmten Gerät ausführt. Gängige Beispiele: - **llama.cpp** – Hochoptimierte C/C++-Bibliothek für CPU- und GPU-Inferenz - **ONNX Runtime** – Plattformübergreifende Engine, die viele Modellformate unterstützt - **TensorFlow Lite / LiteRT** – Für mobile und eingebettete Geräte entwickelt - **Core ML** – Apples Framework zur Nutzung des Neural Engine auf iOS/macOS ### Token-Generierung Sprachmodelle erzeugen Text Token für Token (grob gesagt: Wort für Wort oder Wortteil für Wortteil). Die Geschwindigkeit wird in **Tokens pro Sekunde (tok/s)** gemessen. Auf einem Telefon liegt eine typische Rate zwischen 10 und 30 tok/s – das ist flüssig genug zum Lesen, jedoch viel langsamer als Serverklasse-Hardware. ```figure: ┌─────────────────────────────────────────────┐ │ Token-Generierungs-Schleife │ │ │ │ Eingabe-Prompt │ │ │ │ │ ▼ │ │ ┌─────────┐ KV-Cache ┌───────────┐ │ │ │ Modell │ ─────────────► │ Nächstes │ │ │ └─────────┘ │ Token │ │ │ ▲ └─────┬─────┘ │ │ └─────────────────────────┘ │ │ (wiederholen bis fertig) │ └─────────────────────────────────────────────┘ @title Token-Generierungsschleife bei der Autoregression @caption Das Modell wählt jeweils ein Token aus und fügt es in den Kontext ein. Der KV-Cache speichert Zwischenergebnisse, um die Neuberechnung früherer Token zu vermeiden. @source Eigene Abbildung ``` ### KV-Cache Der Key-Value-Cache ist eine Optimierungstechnik. Anstatt bei jedem Schritt den gesamten bisherigen Kontext neu zu berechnen, speichert das Modell Zwischendarstellungen (Keys und Values aus dem Attention-Mechanismus). Das spart bei langen Gesprächen erheblich Rechenzeit – allerdings auf Kosten von Arbeitsspeicher. ## Herausforderungen On-device Inferenz klingt ideal, bringt aber echte Einschränkungen mit sich: 1. **Modellgröße vs. RAM** – Ein 7-Milliarden-Parameter-Modell mit 4-Bit-Quantisierung belegt immer noch etwa 4 GB RAM. Viele Telefone haben 6–8 GB gesamt. 2. **Thermische Drosselung** – Anhaltende Inferenz erhitzt das Gerät, was dazu führt, dass Chips die Taktfrequenz reduzieren, um Schäden zu vermeiden. 3. **Akkuverbrauch** – Neuronale Netze sind rechenintensiv; ein langer Inferenz-Sprint kann den Akku merklich entladen. 4. **Modellaktualität** – Ein lokal gespeichertes Modell erhält kein Wissen über neue Ereignisse, sofern es nicht aktualisiert wird. ## Praktische Anwendungen - **Offline-Übersetzung** – Apps wie Google Translate können gelernte Modelle lokal ausführen - **Smart-Keyboard-Vorschläge** – Prädiktive Texteingabe auf Geräten, die niemals deine Tippen-Daten in die Cloud sendet - **On-device Sprachassistenten** – Lokale Sprachmodelle für Datenschutz-fokussierte Assistenten - **Medizinische Wearables** – Verarbeitung sensibler Gesundheitsdaten ohne externe Übertragung - **Industrierobotik** – Eingebettete Modelle für Umgebungen ohne zuverlässige Konnektivität ## Gängige Modelle für On-device Nutzung | Modell | Parameter | Typische Quantisierung | RAM-Bedarf | |---|---|---|---| | Llama 3.2 1B | 1 Mrd. | Q4_K_M | ~0,8 GB | | Llama 3.2 3B | 3 Mrd. | Q4_K_M | ~2 GB | | Phi-3 Mini | 3,8 Mrd. | Q4 | ~2,5 GB | | Mistral 7B | 7 Mrd. | Q4_K_M | ~4,1 GB | | Gemma 2 2B | 2 Mrd. | Q4 | ~1,5 GB | ## Schlüsselbegriffe im Überblick - **Parameter** – Die erlernten Zahlen, aus denen ein Modell besteht; mehr Parameter bedeuten in der Regel mehr Fähigkeiten, aber auch mehr Ressourcenbedarf - **Quantisierung** – Reduzierung der numerischen Präzision, um ein Modell kleiner und schneller zu machen - **Token** – Die Grundeinheit des Textes, die ein Modell verarbeitet (ein Wort, ein Wortteil oder ein Satzzeichen) - **Latenz** – Die Verzögerung zwischen Anfrage und Antwort - **Inferenz** – Der Prozess, ein trainiertes Modell zur Erzeugung von Ausgaben zu verwenden (im Gegensatz zum Training) - **KV-Cache** – Ein Speicher-Zwischenspeicher, der Wiederholungsberechnungen während der Token-Generierung vermeidetEin 70-Milliarden-Parameter-LLM, das vollständig auf einem Android-Smartphone läuft, stellt alles in Frage, was wir über Edge-KI angenommen habenLiberaGPT von 5N6 LTD behauptet, ein Frontier-Modell vollständig offline auf Consumer-Hardware betreiben zu können – und die Konsequenzen für datenschutzorientierte KI-Implementierungen verdienen ernsthafte Aufmerksamkeit.LiberaGPTOn-Device-KIEdge-InferenzAndroid-KIHallucination Free·Jun 21, 2026·5 min readStory lesen