L'IA cloud la plus puissante d'Apple tourne sur les serveurs de Google. Apple s'en accommode très bien.
Points clés
- La gamme AFM d'Apple composée de cinq modèles achemine les requêtes entre les niveaux d'inférence sur appareil, Private Cloud Compute et Google Cloud en fonction de la complexité des tâches, un modèle d'inférence à plusieurs niveaux qui mérite d'être étudié pour tout déploiement d'IA dans des environnements multiples.
- AFM 3 Core Advanced intègre 20 milliards de paramètres dans une inférence sur appareil en n'en activant qu'entre 1 et 4 milliards à la fois ; la rareté est l'exploit d'ingénierie à retenir, et non le nombre de paramètres affiché.
- Même l'architecture axée sur la confidentialité d'Apple dépend d'une infrastructure cloud tierce à son plafond de capacité, un rappel concret que l'intégration verticale a ses limites lorsque l'inférence de pointe est l'objectif visé.
À la WWDC26, Apple a annoncé cinq nouveaux modèles de fondation. L'un d'eux fonctionne sur des GPU Nvidia dans l'infrastructure de Google, et comprendre pourquoi en dit long sur les limites réelles de l'IA embarquée.
À la WWDC26, Apple a annoncé cinq nouveaux modèles de fondation. L'un d'eux tourne sur des GPU Nvidia dans l'infrastructure de Google, et comprendre pourquoi en dit long sur les limites réelles de l'IA embarquée.
Imaginez la société la plus soucieuse de la confidentialité dans la tech grand public monter sur scène lors d'une keynote et annoncer, en substance, que son modèle d'IA cloud le plus performant ne réside pas sur du silicium Apple. Il ne réside pas dans les centres de données d'Apple. Il réside sur des GPU Nvidia au sein de l'infrastructure de Google. Si vous suivez la stratégie IA d'Apple depuis 2024, époque à laquelle Private Cloud Compute était présenté comme la réponse à toutes les préoccupations de confiance envers le cloud, cette phrase mérite au moins un sourcil levé. Voici ce qui s'est réellement passé à la WWDC26, pourquoi cette architecture présente une certaine logique, et ce que cela signifie si vous réfléchissez sérieusement aux compromis entre inférence sur appareil et inférence dans le cloud.
Cinq modèles, trois niveaux de déploiement
Selon le blog de recherche en machine learning d'Apple lui-même, la troisième génération des Apple Foundation Models est une famille de cinq modèles décrits comme « conçus sur mesure en collaboration avec Google », allant de l'inférence sur appareil jusqu'aux modèles serveur fonctionnant sur Private Cloud Compute. C'est une gamme architecturalement plus réfléchie que le duo original de 2024, composé d'un modèle sur appareil d'environ 3 milliards de paramètres et d'un unique modèle serveur Private Cloud Compute, comme Marcus Mendes de 9to5Mac l'a détaillé dans son analyse du 11 juin 2026.
Les deux modèles sur appareil sont là où la saga du silicium Apple se lit le plus clairement. AFM 3 Core est le successeur de ce modèle dense original à 3 milliards de paramètres, qu'Apple décrit comme offrant une amélioration notable de la qualité. AFM 3 Core Advanced est la vedette de la gamme : un modèle sparse de 20 milliards de paramètres qui n'active que 1 à 4 milliards de paramètres à la fois selon la requête, comme l'indique le billet de recherche d'Apple. Apple affirme que cela permet des fonctionnalités telles que des voix expressives et une dictée plus précise, et précise que le modèle est « débloqué par et optimisé pour nos systèmes Apple silicon les plus performants ». L'activation sparse à cette échelle, fonctionnant localement sur du matériel grand public, relève d'une ingénierie véritablement remarquable. C'est à peu près la même astuce qui rend les modèles Mixture-of-Experts efficaces à l'échelle des centres de données (imaginez un cabinet de conseil qui n'active que deux de ses huit associés par appel client), sauf qu'Apple le fait tourner dans un appareil que vous portez dans votre poche.
Le détail concernant Google Cloud qui mérite réflexion
C'est là que l'architecture devient instructive pour quiconque réfléchit au déploiement hybride dans son propre travail. Mendes de 9to5Mac l'a rapporté clairement : l'un des cinq modèles « réside sur les serveurs de Google et tourne sur des puces Nvidia ». L'article orienté développeurs du blog de recherche d'Apple décrit la famille complète comme construite en collaboration avec Google, et l'analyse développeur d'ofox.ai identifie ce modèle cloud le plus performant comme étant AFM 3 Cloud Pro, affiné à l'aide des sorties des modèles frontier Gemini de Google et fonctionnant sur des GPU Nvidia hébergés dans Google Cloud.
La position d'Apple, selon cette même analyse, distingue soigneusement un modèle « entraîné à l'aide des » sorties de Gemini d'un modèle qui « est » simplement Gemini. Cette distinction est importante sur le plan commercial et pour l'identité de marque d'Apple. Qu'elle tienne dans tous les sens techniques est une conversation qui se poursuivra bien au-delà de la saison WWDC.
La leçon pratique pour les praticiens du ML concerne moins les relations fournisseurs d'Apple que la logique de routage d'inférence que cela implique. Apple n'envoie pas chaque requête à Google. L'architecture achemine les requêtes entre les niveaux selon la complexité, les modèles sur appareil traitant ce qu'ils peuvent et les modèles serveur prenant le relais pour le reste. Ce type de routage en niveaux — où l'on réserve l'inférence cloud coûteuse aux tâches qui en ont réellement besoin — est un schéma qui mérite d'être étudié, peu importe si vous écrivez un jour une seule ligne de Swift.
Ce que le modèle sparse sur appareil nous apprend
AFM 3 Core Advanced mérite un examen plus approfondi en tant qu'étude de cas en ingénierie. Le blog de recherche d'Apple le décrit comme un modèle de 20 milliards de paramètres qui n'active que 1 à 4 milliards de paramètres par requête, nativement multimodal et reposant sur ce qu'Apple appelle une architecture sparse. Le modèle est réservé au silicium Apple le plus performant, ce qui se comprend : même avec une activation sparse, vous demandez à un modèle de 20 milliards de paramètres d'effectuer une inférence localement. Le modèle sur appareil original de 2024 totalisait environ 3 milliards de paramètres. C'est un bond significatif en capacité brute de modèle, et il est arrivé sans nécessiter d'appel cloud pour les tâches qu'il couvre.
Pour quiconque apprend le ML sur appareil, c'est une illustration utile de pourquoi le nombre de paramètres seul est un chiffre accrocheur trompeur. Un modèle sparse de 20 milliards de paramètres qui en active 1 à 4 milliards se comporte, au moment de l'inférence, davantage comme un modèle de 1 à 4 milliards de paramètres en termes de charge de calcul. La sparsité est la fonctionnalité, pas les 20 milliards. Apple parie que l'activation sparse lui permet de proposer une expérience de modèle qualitativement meilleure sur l'appareil, sans les coûts thermiques et en autonomie qu'imposerait un modèle dense de 20 milliards de paramètres.
Ce que cela signifie pour votre façon d'envisager le déploiement de l'IA
L'architecture à cinq modèles d'Apple est une illustration plus claire de la stratégie d'inférence en niveaux que la plupart des exemples tirés des manuels. Vous avez un petit modèle dense pour une compatibilité large, un grand modèle sparse pour le matériel local performant, des niveaux Private Cloud Compute pour les tâches dépassant la capacité sur appareil tout en restant dans l'infrastructure d'Apple, et un modèle hébergé par Google au sommet de l'échelle des capacités pour les requêtes les plus exigeantes. Chaque niveau représente un compromis délibéré entre latence, exposition de la vie privée, coût de calcul et plafond de capacité.
La leçon plus générale, applicable bien au-delà de l'écosystème Apple, est que l'intégration verticale a des limites pratiques. Même une entreprise disposant de ses propres puces, de ses propres systèmes d'exploitation et de sa propre infrastructure cloud a conclu que le plafond de capacité pour ses charges de travail d'IA les plus exigeantes était mieux servi par un fournisseur cloud tiers fonctionnant sur du matériel tiers. Ce n'est pas un échec de stratégie. C'est une reconnaissance honnête de là où réside la difficulté dans l'inférence de modèles frontier.
Si vous concevez un système d'IA multi-niveaux — que ce soit pour une application mobile, un outil d'entreprise ou un pipeline de recherche — Apple vient de publier une étude de cas assez détaillée sur la façon d'aborder la logique de routage. Le fait que cela tourne sur des GPU Nvidia dans les centres de données de Google est presque anecdotique. Guettez la documentation développeur sur la façon dont le framework Foundation Models expose — ou n'expose pas — les niveaux cloud aux applications Swift tierces. La surface d'API sur appareil est disponible depuis la WWDC25. La part des capacités côté serveur qu'Apple ouvrira aux développeurs déterminera ce qui sera réellement constructible sur cette pile.
Sources
- Introducing the Third Generation of Apple's Foundation Models(opens in new tab)
- Apple's third-generation Foundation Models explained - 9to5Mac(opens in new tab)
- The Third Generation of Apple's Foundation Models and AFM Core Advanced - MacStories(opens in new tab)
- Apple's Third-Generation Foundation Models: A Developer's Read(opens in new tab)
- Meet the Foundation Models framework - WWDC25 - Apple Developer(opens in new tab)
Sources
- Introducing the Third Generation of Apple's Foundation ...(opens in new tab)
- Apple's third-generation Foundation Models explained - 9to5Mac(opens in new tab)
- The Third Generation of Apple's Foundation Models and AFM Core Advanced - MacStories(opens in new tab)
- Apple reveals new AI architecture built around Google Gemini models(opens in new tab)
- Introducing the Third Generation of Apple's Foundation Models(opens in new tab)
- Introducing the Third Generation of Apple's Foundation ...(opens in new tab)
- Apple's third-generation Foundation Models explained - 9to5Mac(opens in new tab)
- Apple's Third-Generation Foundation Models: A Developer's Read ...(opens in new tab)
- Introducing the Third Generation of Apple's Foundation Models(opens in new tab)
- Meet the Foundation Models framework - WWDC25 - Apple Developer(opens in new tab)
