Apples leistungsfähigste Cloud-KI läuft auf Googles Servern. Apple ist damit einverstanden.
Kernaussagen
- Apples fünf Modelle umfassendes AFM-Lineup leitet Anfragen je nach Aufgabenkomplexität über On-Device-, Private Cloud Compute- und Google-Cloud-Ebenen weiter – ein gestaffeltes Inferenzmuster, das für jede KI-Bereitstellung in mehreren Umgebungen lehrreich ist.
- AFM 3 Core Advanced packt 20 Milliarden Parameter in die On-Device-Inferenz, indem jeweils nur 1 bis 4 Milliarden aktiviert werden; die Sparsität ist die eigentliche Ingenieurleistung, nicht die Schlagzeilen-Parameteranzahl.
- Selbst Apples datenschutzorientierte Architektur ist an ihrer Leistungsgrenze auf Cloud-Infrastruktur von Drittanbietern angewiesen – eine praktische Erinnerung daran, dass vertikale Integration Grenzen hat, wenn Inferenz auf Frontier-Niveau das Ziel ist.
Auf der WWDC26 stellte Apple fünf neue Foundation-Modelle vor. Eines davon läuft auf Nvidia-GPUs in Googles Infrastruktur – und wenn man versteht, warum, erfährt man eine Menge darüber, wo On-Device-KI tatsächlich an ihre Grenzen stößt.
Stell dir vor, das datenschutzbewussteste Unternehmen der Verbraucher-Technologiebranche betritt die Keynote-Bühne und kündigt im Wesentlichen an, dass sein leistungsfähigstes Cloud-KI-Modell nicht auf Apple Silicon läuft. Es befindet sich nicht in Apples Rechenzentren. Es läuft auf Nvidia-GPUs innerhalb der Google-Infrastruktur. Wer Apples KI-Strategie seit 2024 verfolgt hat – als Private Cloud Compute als Antwort auf alle Vertrauensfragen rund um die Cloud positioniert wurde – dem dürfte bei diesem Satz mindestens eine Augenbraue hochgehen. Hier erfährst du, was auf der WWDC26 tatsächlich passiert ist, warum die Architektur in gewisser Hinsicht Sinn ergibt und was das bedeutet, wenn du ernsthaft über die Abwägungen zwischen On-Device- und Cloud-Inferenz nachdenkst.
Fünf Modelle, drei Deployment-Ebenen
Laut Apples eigenem Machine-Learning-Forschungsblog ist die dritte Generation der Apple Foundation Models eine Familie aus fünf Modellen, die laut Beschreibung „in Zusammenarbeit mit Google entwickelt" wurden und von On-Device-Inferenz bis hin zu serverbasierten Modellen auf Private Cloud Compute reichen. Das ist ein architektonisch durchdachteres Lineup als das ursprüngliche Duo aus 2024 – bestehend aus einem On-Device-Modell mit rund 3 Milliarden Parametern und einem einzigen Private-Cloud-Compute-Servermodell – wie Marcus Mendes von 9to5Mac in seiner Analyse vom 11. Juni 2026 dargelegt hat.
Die beiden On-Device-Modelle sind dort, wo Apples Silicon-Geschichte am deutlichsten sichtbar wird. AFM 3 Core ist der Nachfolger jenes ursprünglichen dichten Modells mit 3 Milliarden Parametern; Apple beschreibt es als einen qualitativen Schritt nach vorne. AFM 3 Core Advanced ist das Highlight: ein spärliches Modell mit 20 Milliarden Parametern, das je nach Anfrage nur 1 bis 4 Milliarden Parameter gleichzeitig aktiviert – so beschreibt es Apples Forschungsbeitrag. Apple zufolge ermöglicht dies Funktionen wie ausdrucksstarke Stimmen und präzisere Diktierfunktionen; außerdem wird betont, das Modell sei „freigeschaltet durch und optimiert für unsere leistungsfähigsten Apple-Silicon-Systeme". Sparse Activation in diesem Maßstab, die lokal auf Consumer-Hardware läuft, ist wirklich beeindruckendes Engineering. Es ist im Grunde derselbe Trick, der Mixture-of-Experts-Modelle auf Rechenzentrumsebene effizient macht – vergleichbar mit einer Unternehmensberatung, die pro Kundengespräch nur zwei ihrer acht Partner aktiviert –, mit dem Unterschied, dass Apple das Ganze in einem Gerät liefert, das du in der Hosentasche trägst.
Das Google-Cloud-Detail, das zum Nachdenken anregt
Hier wird die Architektur für alle, die über hybrides Deployment in ihrer eigenen Arbeit nachdenken, besonders aufschlussreich. Mendes von 9to5Mac bringt es klar auf den Punkt: Eines der fünf Modelle „lebt auf Googles Servern, die auf Nvidia-Chips laufen". Der entwicklerorientierte Beitrag aus Apples Forschungsblog beschreibt die gesamte Familie als in Zusammenarbeit mit Google entwickelt, und die Entwickleranalyse von ofox.ai identifiziert das leistungsfähigste Cloud-Modell als AFM 3 Cloud Pro – verfeinert durch Ausgaben von Googles Gemini-Frontier-Modellen und betrieben auf Nvidia-GPUs, die in Google Cloud gehostet werden.
Apples Position – so die genannte Analyse – unterscheidet sorgfältig zwischen einem Modell, das „mithilfe von" Gemini-Ausgaben trainiert wurde, und einem, das schlicht „Gemini ist". Diese Unterscheidung ist kommerziell bedeutsam und für Apples Markenidentität wichtig. Ob sie in jeder technischen Hinsicht standhält, ist eine Diskussion, die weit über die WWDC-Saison hinaus andauern wird.
Der praktische Takeaway für ML-Praktizierende betrifft weniger Apples Lieferantenbeziehungen als vielmehr die damit implizierte Inferenz-Routing-Logik. Apple leitet nicht jede Anfrage an Google weiter. Die Architektur verteilt Anfragen je nach Komplexität auf verschiedene Ebenen: On-Device-Modelle übernehmen, was sie können, Servermodelle übernehmen den Rest. Dieses Muster des gestuften Routings – bei dem teure Cloud-Inferenz für Aufgaben reserviert wird, die sie tatsächlich erfordern – ist ein Ansatz, der sich unabhängig davon lohnt zu verstehen, ob du jemals eine Zeile Swift schreiben wirst.
Was das spärliche On-Device-Modell uns lehrt
AFM 3 Core Advanced verdient einen genaueren Blick als ingenieurwissenschaftliche Fallstudie. Apples Forschungsblog beschreibt es als ein Modell mit 20 Milliarden Parametern, das pro Anfrage nur 1 bis 4 Milliarden Parameter aktiviert, nativ multimodal ist und auf dem aufbaut, was Apple eine spärliche Architektur nennt. Das Modell ist Apples leistungsfähigstem Silicon vorbehalten – das macht Sinn: Selbst mit spärlicher Aktivierung lässt du ein Modell mit 20 Milliarden Parametern lokal Inferenz betreiben.
Das ursprüngliche On-Device-Modell von 2024 hatte insgesamt rund 3 Milliarden Parameter. Das ist ein erheblicher Sprung in der rohen Modellkapazität – und er kommt ganz ohne Cloud-Anfrage für die Aufgaben aus, die das Modell abdeckt.
Für alle, die On-Device-ML erlernen, ist das eine nützliche Veranschaulichung, warum die reine Parameteranzahl als Schlagzeile irreführend ist. Ein spärliches Modell mit 20 Milliarden Parametern, das 1 bis 4 Milliarden aktiviert, verhält sich zur Inferenzzeit – was den Rechenaufwand betrifft – eher wie ein Modell mit 1 bis 4 Milliarden Parametern. Die Sparsity ist das eigentliche Feature, nicht die 20 Milliarden.
Apple wettet darauf, dass spärliche Aktivierung es ermöglicht, eine qualitativ bessere Modellerfahrung auf dem Gerät zu liefern – ohne die thermischen und Akkukosten, die ein vollständig dichtes Modell mit 20 Milliarden Parametern verursachen würde.
Was das für dein Denken über KI-Deployment bedeutet
Apples Fünf-Modell-Architektur ist ein klareres Beispiel für eine gestufte Inferenzstrategie als die meisten Lehrbuchbeispiele. Es gibt ein kleines dichtes Modell für breite Kompatibilität, ein großes spärliches Modell für leistungsfähige lokale Hardware, Private-Cloud-Compute-Ebenen für Aufgaben, die die On-Device-Kapazität überschreiten und dennoch innerhalb von Apples Infrastruktur bleiben – und ein bei Google gehostetes Modell an der Spitze der Leistungsskala für die anspruchsvollsten Anfragen.
Jede Ebene repräsentiert einen bewussten Kompromiss zwischen Latenz, Datenschutzexposition, Rechenkosten und Leistungsobergrenze.
Die übergreifende Lektion – weit über Apples Ökosystem hinaus anwendbar – lautet: Vertikale Integration hat praktische Grenzen. Selbst ein Unternehmen mit eigenen Chips, eigenen Betriebssystemen und eigener Cloud-Infrastruktur kam zu dem Schluss, dass die Leistungsobergrenze für seine anspruchsvollsten KI-Workloads am besten von einem Drittanbieter-Cloud-Anbieter mit Drittanbieter-Hardware bedient wird. Das ist kein strategisches Versagen. Es ist eine ehrliche Anerkennung dessen, wo die eigentlichen Schwierigkeiten bei der Inferenz mit Frontier-Modellen liegen.
Wenn du ein mehrstufiges KI-System entwirfst – für eine Mobile App, ein Enterprise-Tool oder eine Forschungspipeline –, hat Apple gerade eine ziemlich detaillierte Fallstudie darüber veröffentlicht, wie man über die Routing-Logik nachdenken sollte. Dass das Ganze auf Nvidia-GPUs in Googles Rechenzentren läuft, ist dabei fast nebensächlich.
Behalte die Entwicklerdokumentation im Blick: Es wird spannend sein zu sehen, inwieweit das Foundation-Models-Framework die Cloud-Ebenen für Swift-Apps von Drittanbietern zugänglich macht – oder eben nicht. Die On-Device-API-Oberfläche ist seit der WWDC25 verfügbar. Wie viel von den serverseitigen Funktionen Apple für Entwicklerinnen und Entwickler öffnet, wird bestimmen, was auf diesem Stack tatsächlich umsetzbar ist.
Quellen
- Introducing the Third Generation of Apple's Foundation Models(opens in new tab)
- Apple's third-generation Foundation Models explained - 9to5Mac(opens in new tab)
- The Third Generation of Apple's Foundation Models and AFM Core Advanced - MacStories(opens in new tab)
- Apple's Third-Generation Foundation Models: A Developer's Read(opens in new tab)
- Meet the Foundation Models framework - WWDC25 - Apple Developer(opens in new tab)
Quellen
- Introducing the Third Generation of Apple's Foundation ...(opens in new tab)
- Apple's third-generation Foundation Models explained - 9to5Mac(opens in new tab)
- The Third Generation of Apple's Foundation Models and AFM Core Advanced - MacStories(opens in new tab)
- Apple reveals new AI architecture built around Google Gemini models(opens in new tab)
- Introducing the Third Generation of Apple's Foundation Models(opens in new tab)
- Introducing the Third Generation of Apple's Foundation ...(opens in new tab)
- Apple's third-generation Foundation Models explained - 9to5Mac(opens in new tab)
- Apple's Third-Generation Foundation Models: A Developer's Read ...(opens in new tab)
- Introducing the Third Generation of Apple's Foundation Models(opens in new tab)
- Meet the Foundation Models framework - WWDC25 - Apple Developer(opens in new tab)
