Was unterscheidet AFM 3 Core Advanced von früheren Apple-On-Device-Modellen?

AFM 3 Core Advanced ist ein spärliches Modell mit 20 Milliarden Parametern, das pro Anfrage nur 1 bis 4 Milliarden Parameter aktiviert. Damit ist es erheblich leistungsfähiger als das ursprüngliche dichte On-Device-Modell mit rund 3 Milliarden Parametern und bleibt dennoch für die On-Device-Inferenz auf leistungsfähigem Apple-Silicon praktikabel.

Warum läuft Apples leistungsfähigstes Cloud-Modell auf Googles Servern statt auf Apple-Silicon?

Apples Forschungsblog beschreibt die gesamte AFM-Familie als in Zusammenarbeit mit Google maßgeschneidert entwickelt. Die Entwickleranalyse schreibt AFM 3 Cloud Pro speziell Nvidia-GPUs in Google Cloud zu, verfeinert mithilfe von Gemini-Modellausgaben. Apple unterscheidet zwischen 'mit Gemini trainiert' und 'ist Gemini', doch die Infrastrukturabhängigkeit spiegelt die praktischen Grenzen selbst einer vertikalen Integration im Apple-Maßstab wider.

Was ist das Foundation-Models-Framework und können Entwickler es nutzen?

Das Foundation-Models-Framework stellt On-Device-Modellfähigkeiten für Swift-Apps bereit. Es ist seit der WWDC25 verfügbar und akzeptiert nun auch Bilder. Der Zugang zu den serverseitigen Cloud-Ebenen für Drittentwickler wurde im aktuellen Stand noch nicht vollständig erläutert.

1 / 1

Apple Foundation Models Apple Intelligence WWDC26 On-Device-KI Private Cloud Compute Google Cloud Foundation-Models-Framework breaking-news

Nyx Jun 13, 2026

Apple Foundation Models Apple hat Foundation Models angekündigt – eine Reihe von KI-Modellen, die direkt auf Apple-Geräten laufen. Diese Modelle bilden das Herzstück von Apple Intelligence, Apples persönlichem KI-System, das in iOS 18, iPadOS 18 und macOS Sequoia eingeführt wurde. Was sind Foundation Models? Foundation Models sind große KI-Modelle, die auf riesigen Mengen an Text und Daten trainiert wurden. Sie können eine Vielzahl von Aufgaben erfüllen – vom Schreiben und Zusammenfassen bis hin zum Beantworten von Fragen. Apple hat seine eigenen Foundation Models entwickelt, die speziell für den Einsatz auf Apple-Hardware optimiert sind. Apple setzt dabei auf zwei Haupttypen: Ein On-Device-Modell, das direkt auf deinem iPhone, iPad oder Mac läuft – ohne dass Daten an externe Server gesendet werden müssen. Ein größeres Server-Modell, das in Apples Private Cloud Compute läuft, wenn komplexere Aufgaben mehr Rechenleistung erfordern. Warum ist das wichtig? Viele KI-Dienste verarbeiten deine Daten auf fremden Servern. Apple verfolgt einen anderen Ansatz: Das On-Device-Modell hält deine Daten auf deinem Gerät. Wenn doch Server benötigt werden, sorgt Private Cloud Compute dafür, dass selbst Apple keinen Zugriff auf deine Anfragen hat. Das ist besonders relevant für Aufgaben wie das Zusammenfassen von Nachrichten, das Verbessern von Texten oder das Beantworten persönlicher Fragen – alles Dinge, bei denen Privatsphäre eine große Rolle spielt. Wie wurden die Modelle trainiert? Apple hat seine Foundation Models auf lizenzierten Daten sowie auf öffentlich zugänglichen Daten trainiert. Besonderes Augenmerk wurde auf Qualität gelegt: Apple nutzte sowohl menschliches Feedback als auch ein Verfahren namens RLHF (Reinforcement Learning from Human Feedback), um die Modelle hilfreicher und sicherer zu machen. Zusätzlich kommt eine Technik namens LoRA (Low-Rank Adaptation) zum Einsatz. Sie erlaubt es, das Modell schnell und effizient für bestimmte Aufgaben anzupassen – direkt auf dem Gerät, ohne das gesamte Modell neu trainieren zu müssen. Apple Intelligence und die Modelle im Alltag Apple Intelligence nutzt die Foundation Models für viele alltägliche Funktionen: Schreiben und Überarbeiten: Du kannst Texte in Mail oder Notizen neu formulieren, kürzen oder in einem anderen Ton schreiben lassen. Zusammenfassungen: Lange E-Mails oder Benachrichtigungen werden automatisch zusammengefasst. Siri: Siri versteht jetzt komplexere Anfragen und kann auf Inhalte deiner Apps zugreifen. Bildgenerierung: Mit Image Playground und Genmoji kannst du eigene Bilder und Emojis erstellen. ChatGPT-Integration: Für besonders anspruchsvolle Anfragen kann optional ChatGPT von OpenAI hinzugezogen werden – mit deiner ausdrücklichen Zustimmung. Technische Besonderheiten Apple hat die Modelle so optimiert, dass sie effizient auf dem Apple Neural Engine laufen – dem speziellen KI-Chip in Apple-Geräten. Das ermöglicht schnelle Antwortzeiten bei gleichzeitig niedrigem Energieverbrauch. Ein weiterer technischer Vorzug: Apple setzt auf Quantisierung, also eine Methode, die Modelle kleiner macht, ohne ihre Leistung stark zu beeinträchtigen. So passen die Modelle in den begrenzten Speicher eines Mobilgeräts. Offenheit und Forschung Apple hat ein Research-Paper zu seinen Foundation Models veröffentlicht und damit einen für Apple ungewöhnlich offenen Einblick in seine KI-Entwicklung gegeben. Darin werden Architektur, Trainingsmethoden und Leistungsvergleiche mit anderen Modellen beschrieben. Das zeigt: Apple möchte nicht nur Produkte liefern, sondern auch zur wissenschaftlichen Gemeinschaft beitragen und Vertrauen durch Transparenz aufbauen.

Apples leistungsfähigste Cloud-KI läuft auf Googles Servern. Apple ist damit einverstanden.

Kernaussagen

Apples fünf Modelle umfassendes AFM-Lineup leitet Anfragen je nach Aufgabenkomplexität über On-Device-, Private Cloud Compute- und Google-Cloud-Ebenen weiter – ein gestaffeltes Inferenzmuster, das für jede KI-Bereitstellung in mehreren Umgebungen lehrreich ist.
AFM 3 Core Advanced packt 20 Milliarden Parameter in die On-Device-Inferenz, indem jeweils nur 1 bis 4 Milliarden aktiviert werden; die Sparsität ist die eigentliche Ingenieurleistung, nicht die Schlagzeilen-Parameteranzahl.
Selbst Apples datenschutzorientierte Architektur ist an ihrer Leistungsgrenze auf Cloud-Infrastruktur von Drittanbietern angewiesen – eine praktische Erinnerung daran, dass vertikale Integration Grenzen hat, wenn Inferenz auf Frontier-Niveau das Ziel ist.

Nyx · Jun 13, 2026

Auf der WWDC26 stellte Apple fünf neue Foundation-Modelle vor. Eines davon läuft auf Nvidia-GPUs in Googles Infrastruktur – und wenn man versteht, warum, erfährt man eine Menge darüber, wo On-Device-KI tatsächlich an ihre Grenzen stößt.

Stell dir vor, das datenschutzbewussteste Unternehmen der Verbraucher-Technologiebranche betritt die Keynote-Bühne und kündigt im Wesentlichen an, dass sein leistungsfähigstes Cloud-KI-Modell nicht auf Apple Silicon läuft. Es befindet sich nicht in Apples Rechenzentren. Es läuft auf Nvidia-GPUs innerhalb der Google-Infrastruktur. Wer Apples KI-Strategie seit 2024 verfolgt hat – als Private Cloud Compute als Antwort auf alle Vertrauensfragen rund um die Cloud positioniert wurde – dem dürfte bei diesem Satz mindestens eine Augenbraue hochgehen. Hier erfährst du, was auf der WWDC26 tatsächlich passiert ist, warum die Architektur in gewisser Hinsicht Sinn ergibt und was das bedeutet, wenn du ernsthaft über die Abwägungen zwischen On-Device- und Cloud-Inferenz nachdenkst.

Fünf Modelle, drei Deployment-Ebenen

Laut Apples eigenem Machine-Learning-Forschungsblog ist die dritte Generation der Apple Foundation Models eine Familie aus fünf Modellen, die laut Beschreibung „in Zusammenarbeit mit Google entwickelt" wurden und von On-Device-Inferenz bis hin zu serverbasierten Modellen auf Private Cloud Compute reichen. Das ist ein architektonisch durchdachteres Lineup als das ursprüngliche Duo aus 2024 – bestehend aus einem On-Device-Modell mit rund 3 Milliarden Parametern und einem einzigen Private-Cloud-Compute-Servermodell – wie Marcus Mendes von 9to5Mac in seiner Analyse vom 11. Juni 2026 dargelegt hat.

Die beiden On-Device-Modelle sind dort, wo Apples Silicon-Geschichte am deutlichsten sichtbar wird. AFM 3 Core ist der Nachfolger jenes ursprünglichen dichten Modells mit 3 Milliarden Parametern; Apple beschreibt es als einen qualitativen Schritt nach vorne. AFM 3 Core Advanced ist das Highlight: ein spärliches Modell mit 20 Milliarden Parametern, das je nach Anfrage nur 1 bis 4 Milliarden Parameter gleichzeitig aktiviert – so beschreibt es Apples Forschungsbeitrag. Apple zufolge ermöglicht dies Funktionen wie ausdrucksstarke Stimmen und präzisere Diktierfunktionen; außerdem wird betont, das Modell sei „freigeschaltet durch und optimiert für unsere leistungsfähigsten Apple-Silicon-Systeme". Sparse Activation in diesem Maßstab, die lokal auf Consumer-Hardware läuft, ist wirklich beeindruckendes Engineering. Es ist im Grunde derselbe Trick, der Mixture-of-Experts-Modelle auf Rechenzentrumsebene effizient macht – vergleichbar mit einer Unternehmensberatung, die pro Kundengespräch nur zwei ihrer acht Partner aktiviert –, mit dem Unterschied, dass Apple das Ganze in einem Gerät liefert, das du in der Hosentasche trägst.

Das Google-Cloud-Detail, das zum Nachdenken anregt

Hier wird die Architektur für alle, die über hybrides Deployment in ihrer eigenen Arbeit nachdenken, besonders aufschlussreich. Mendes von 9to5Mac bringt es klar auf den Punkt: Eines der fünf Modelle „lebt auf Googles Servern, die auf Nvidia-Chips laufen". Der entwicklerorientierte Beitrag aus Apples Forschungsblog beschreibt die gesamte Familie als in Zusammenarbeit mit Google entwickelt, und die Entwickleranalyse von ofox.ai identifiziert das leistungsfähigste Cloud-Modell als AFM 3 Cloud Pro – verfeinert durch Ausgaben von Googles Gemini-Frontier-Modellen und betrieben auf Nvidia-GPUs, die in Google Cloud gehostet werden.

Apples Position – so die genannte Analyse – unterscheidet sorgfältig zwischen einem Modell, das „mithilfe von" Gemini-Ausgaben trainiert wurde, und einem, das schlicht „Gemini ist". Diese Unterscheidung ist kommerziell bedeutsam und für Apples Markenidentität wichtig. Ob sie in jeder technischen Hinsicht standhält, ist eine Diskussion, die weit über die WWDC-Saison hinaus andauern wird.

Der praktische Takeaway für ML-Praktizierende betrifft weniger Apples Lieferantenbeziehungen als vielmehr die damit implizierte Inferenz-Routing-Logik. Apple leitet nicht jede Anfrage an Google weiter. Die Architektur verteilt Anfragen je nach Komplexität auf verschiedene Ebenen: On-Device-Modelle übernehmen, was sie können, Servermodelle übernehmen den Rest. Dieses Muster des gestuften Routings – bei dem teure Cloud-Inferenz für Aufgaben reserviert wird, die sie tatsächlich erfordern – ist ein Ansatz, der sich unabhängig davon lohnt zu verstehen, ob du jemals eine Zeile Swift schreiben wirst.

Was das spärliche On-Device-Modell uns lehrt

AFM 3 Core Advanced verdient einen genaueren Blick als ingenieurwissenschaftliche Fallstudie. Apples Forschungsblog beschreibt es als ein Modell mit 20 Milliarden Parametern, das pro Anfrage nur 1 bis 4 Milliarden Parameter aktiviert, nativ multimodal ist und auf dem aufbaut, was Apple eine spärliche Architektur nennt. Das Modell ist Apples leistungsfähigstem Silicon vorbehalten – das macht Sinn: Selbst mit spärlicher Aktivierung lässt du ein Modell mit 20 Milliarden Parametern lokal Inferenz betreiben.

Das ursprüngliche On-Device-Modell von 2024 hatte insgesamt rund 3 Milliarden Parameter. Das ist ein erheblicher Sprung in der rohen Modellkapazität – und er kommt ganz ohne Cloud-Anfrage für die Aufgaben aus, die das Modell abdeckt.

Für alle, die On-Device-ML erlernen, ist das eine nützliche Veranschaulichung, warum die reine Parameteranzahl als Schlagzeile irreführend ist. Ein spärliches Modell mit 20 Milliarden Parametern, das 1 bis 4 Milliarden aktiviert, verhält sich zur Inferenzzeit – was den Rechenaufwand betrifft – eher wie ein Modell mit 1 bis 4 Milliarden Parametern. Die Sparsity ist das eigentliche Feature, nicht die 20 Milliarden.

Apple wettet darauf, dass spärliche Aktivierung es ermöglicht, eine qualitativ bessere Modellerfahrung auf dem Gerät zu liefern – ohne die thermischen und Akkukosten, die ein vollständig dichtes Modell mit 20 Milliarden Parametern verursachen würde.

Was das für dein Denken über KI-Deployment bedeutet

Apples Fünf-Modell-Architektur ist ein klareres Beispiel für eine gestufte Inferenzstrategie als die meisten Lehrbuchbeispiele. Es gibt ein kleines dichtes Modell für breite Kompatibilität, ein großes spärliches Modell für leistungsfähige lokale Hardware, Private-Cloud-Compute-Ebenen für Aufgaben, die die On-Device-Kapazität überschreiten und dennoch innerhalb von Apples Infrastruktur bleiben – und ein bei Google gehostetes Modell an der Spitze der Leistungsskala für die anspruchsvollsten Anfragen.

Jede Ebene repräsentiert einen bewussten Kompromiss zwischen Latenz, Datenschutzexposition, Rechenkosten und Leistungsobergrenze.

Die übergreifende Lektion – weit über Apples Ökosystem hinaus anwendbar – lautet: Vertikale Integration hat praktische Grenzen. Selbst ein Unternehmen mit eigenen Chips, eigenen Betriebssystemen und eigener Cloud-Infrastruktur kam zu dem Schluss, dass die Leistungsobergrenze für seine anspruchsvollsten KI-Workloads am besten von einem Drittanbieter-Cloud-Anbieter mit Drittanbieter-Hardware bedient wird. Das ist kein strategisches Versagen. Es ist eine ehrliche Anerkennung dessen, wo die eigentlichen Schwierigkeiten bei der Inferenz mit Frontier-Modellen liegen.

Wenn du ein mehrstufiges KI-System entwirfst – für eine Mobile App, ein Enterprise-Tool oder eine Forschungspipeline –, hat Apple gerade eine ziemlich detaillierte Fallstudie darüber veröffentlicht, wie man über die Routing-Logik nachdenken sollte. Dass das Ganze auf Nvidia-GPUs in Googles Rechenzentren läuft, ist dabei fast nebensächlich.

Behalte die Entwicklerdokumentation im Blick: Es wird spannend sein zu sehen, inwieweit das Foundation-Models-Framework die Cloud-Ebenen für Swift-Apps von Drittanbietern zugänglich macht – oder eben nicht. Die On-Device-API-Oberfläche ist seit der WWDC25 verfügbar. Wie viel von den serverseitigen Funktionen Apple für Entwicklerinnen und Entwickler öffnet, wird bestimmen, was auf diesem Stack tatsächlich umsetzbar ist.

Quellen

Questions & answers

Insgesamt fünf Modelle: zwei On-Device-Modelle (AFM 3 Core und AFM 3 Core Advanced) und drei serverbasierte Modelle, darunter eines, das auf Nvidia-GPUs in Google Cloud läuft.