O AI de nuvem mais poderoso da Apple roda nos servidores do Google. A Apple não tem problema com isso.
Principais conclusões
- A linha AFM da Apple com cinco modelos distribui requisições entre camadas no dispositivo, Private Cloud Compute e Google Cloud com base na complexidade da tarefa — um padrão de inferência em camadas que vale estudar para qualquer implantação de IA em múltiplos ambientes.
- O AFM 3 Core Advanced comprime 20 bilhões de parâmetros em inferência no dispositivo ativando apenas de 1 a 4 bilhões por vez; a esparsidade é a história de engenharia, não a contagem de parâmetros destacada no título.
- Mesmo a arquitetura que prioriza privacidade da Apple depende de infraestrutura de nuvem de terceiros em seu limite máximo de capacidade — um lembrete prático de que a integração vertical tem limites quando o alvo é inferência de nível frontier.
No WWDC26, a Apple anunciou cinco novos modelos de fundação. Um deles roda em GPUs da Nvidia na infraestrutura do Google, e entender o motivo revela muito sobre onde a IA no dispositivo realmente encontra seus limites.
No WWDC26, a Apple anunciou cinco novos modelos de fundação. Um deles roda em GPUs da Nvidia na infraestrutura do Google, e entender o porquê revela muito sobre onde a IA no dispositivo realmente encontra seu limite.
Imagine a empresa mais orientada à privacidade do setor de tecnologia para consumidores subindo ao palco de uma keynote e anunciando, essencialmente, que seu modelo de IA em nuvem mais poderoso não roda em silicon da Apple. Não roda nos data centers da Apple. Roda em GPUs da Nvidia dentro da infraestrutura do Google. Se você tem acompanhado a estratégia de IA da Apple desde 2024, quando o Private Cloud Compute foi apresentado como a resposta para toda preocupação com confiança em nuvem, essa frase merece pelo menos uma sobrancelha erguida. Veja o que realmente aconteceu na WWDC26, por que a arquitetura faz um certo sentido e o que isso significa se você está pensando seriamente nos trade-offs entre inferência no dispositivo e em nuvem.
Cinco Modelos, Três Camadas de Implantação
De acordo com o próprio blog de pesquisa em machine learning da Apple, a terceira geração dos Apple Foundation Models é uma família de cinco modelos descrita como "construída sob medida em colaboração com o Google", abrangendo desde inferência no dispositivo até modelos baseados em servidor rodando no Private Cloud Compute. Esse é um conjunto arquiteturalmente mais deliberado do que o par original de 2024 — um modelo no dispositivo com cerca de 3 bilhões de parâmetros e um único modelo de servidor no Private Cloud Compute —, conforme Marcus Mendes, do 9to5Mac, detalhou em sua análise de 11 de junho de 2026.
Os dois modelos no dispositivo são onde a história do silicon da Apple se desenrola de forma mais clara. O AFM 3 Core é o sucessor daquele modelo denso original de 3 bilhões de parâmetros, com a Apple descrevendo-o como um salto de qualidade. O AFM 3 Core Advanced é o destaque: um modelo esparso de 20 bilhões de parâmetros que ativa apenas 1 a 4 bilhões de parâmetros por vez, dependendo da solicitação, conforme o post de pesquisa da Apple. A Apple afirma que isso viabiliza recursos como vozes expressivas e ditado com maior precisão, e observa que o modelo é "desbloqueado e otimizado para nossos sistemas Apple silicon mais capazes". Ativação esparsa nessa escala, rodando localmente em hardware de consumo, é engenharia genuinamente interessante. É praticamente o mesmo truque que torna os modelos Mixture-of-Experts eficientes em escala de datacenter (uma consultoria que ativa apenas dois de seus oito sócios por chamada com o cliente), exceto que a Apple está entregando isso dentro de um dispositivo que cabe no seu bolso.
O Detalhe do Google Cloud que Vale a Pena Considerar
É aqui que a arquitetura se torna instrutiva para qualquer pessoa que esteja pensando em implantação híbrida em seu próprio trabalho. Mendes, do 9to5Mac, relatou isso de forma direta: um dos cinco modelos "vive nos servidores do Google, rodando em chips Nvidia". O texto voltado a desenvolvedores, publicado no blog de pesquisa da Apple, descreve a família completa como construída em colaboração com o Google, e a análise para desenvolvedores do ofox.ai identifica esse modelo de nuvem mais poderoso como o AFM 3 Cloud Pro, refinado usando saídas dos modelos de fronteira Gemini do Google e rodando em GPUs Nvidia hospedadas no Google Cloud.
A posição da Apple, conforme essa mesma análise, cuida de distinguir um modelo "treinado usando" saídas do Gemini de um que simplesmente "é" o Gemini. Essa distinção importa comercialmente e para a identidade de marca da Apple. Se ela se sustenta em todos os sentidos técnicos é uma conversa que continuará bem além da temporada da WWDC.
A conclusão prática para profissionais de ML tem menos a ver com os relacionamentos de fornecedores da Apple e mais com a lógica de roteamento de inferência que isso implica. A Apple não está enviando todas as solicitações ao Google. A arquitetura roteia as solicitações entre camadas dependendo da complexidade, com os modelos no dispositivo tratando o que conseguem e os modelos de servidor tratando o que eles não conseguem. Esse tipo de roteamento em camadas — reservando inferência cara em nuvem para tarefas que realmente precisam dela — é um padrão que vale a pena estudar, independentemente de você já ter escrito ou não uma linha de Swift.
O que o Modelo Esparso no Dispositivo nos Ensina
O AFM 3 Core Advanced merece uma análise mais detalhada como estudo de caso de engenharia. O blog de pesquisa da Apple o descreve como um modelo de 20 bilhões de parâmetros que ativa apenas 1 a 4 bilhões de parâmetros por solicitação, nativamente multimodal e construído sobre o que a Apple chama de arquitetura esparsa. O modelo é reservado para o silicon mais capaz da Apple, o que faz sentido: mesmo com ativação esparsa, você está pedindo a um modelo de 20 bilhões de parâmetros que execute inferência localmente.
O modelo no dispositivo original de 2024 tinha aproximadamente 3 bilhões de parâmetros no total. Esse é um salto significativo na capacidade bruta do modelo, e ele chegou sem exigir uma chamada à nuvem para as tarefas que cobre.
Para quem está aprendendo sobre ML no dispositivo, esta é uma ilustração útil de por que a contagem de parâmetros por si só é um número de manchete enganoso. Um modelo esparso de 20 bilhões de parâmetros que ativa 1 a 4 bilhões de parâmetros se comporta, no momento da inferência, mais como um modelo de 1 a 4 bilhões de parâmetros em termos de demanda computacional. A esparsidade é o recurso, não os 20 bilhões. A Apple está apostando que a ativação esparsa permite entregar uma experiência de modelo qualitativamente melhor no dispositivo sem os custos térmicos e de bateria que um modelo denso de 20 bilhões de parâmetros imporia.
O que Isso Significa para a Sua Forma de Pensar sobre Implantação de IA
A arquitetura de cinco modelos da Apple é uma ilustração mais clara de estratégia de inferência em camadas do que a maioria dos exemplos em livros didáticos. Há um modelo denso e pequeno para ampla compatibilidade, um modelo esparso e grande para hardware local mais capaz, camadas de Private Cloud Compute para tarefas que excedem a capacidade do dispositivo mas permanecem dentro da infraestrutura da Apple, e um modelo hospedado pelo Google no topo da escala de capacidade para as solicitações mais exigentes.
Cada camada representa um trade-off deliberado entre latência, exposição à privacidade, custo computacional e teto de capacidade.
A lição mais ampla, aplicável muito além do ecossistema da Apple, é que a integração vertical tem limites práticos. Mesmo uma empresa com seus próprios chips, seus próprios sistemas operacionais e sua própria infraestrutura de nuvem concluiu que o teto de capacidade para suas cargas de trabalho de IA mais exigentes era melhor atendido por um provedor de nuvem terceirizado rodando hardware de terceiros. Isso não é uma falha de estratégia. É um reconhecimento honesto de onde está a dificuldade na inferência de modelos de fronteira.
Se você está projetando um sistema de IA em múltiplas camadas — seja para um aplicativo mobile, uma ferramenta empresarial ou um pipeline de pesquisa — a Apple acabou de publicar um estudo de caso bastante detalhado sobre como pensar na lógica de roteamento. O fato de rodar em GPUs Nvidia nos data centers do Google é quase um detalhe secundário.
Fique atento à documentação para desenvolvedores sobre como o framework Foundation Models expõe — ou não expõe — as camadas de nuvem para apps Swift de terceiros. A superfície de API no dispositivo está disponível desde a WWDC25. O quanto da capacidade do lado do servidor a Apple abrirá para desenvolvedores definirá o que é de fato construível nessa plataforma.
Fontes
- Introducing the Third Generation of Apple's Foundation Models(opens in new tab)
- Apple's third-generation Foundation Models explained - 9to5Mac(opens in new tab)
- The Third Generation of Apple's Foundation Models and AFM Core Advanced - MacStories(opens in new tab)
- Apple's Third-Generation Foundation Models: A Developer's Read(opens in new tab)
- Meet the Foundation Models framework - WWDC25 - Apple Developer(opens in new tab)
Fontes
- Introducing the Third Generation of Apple's Foundation ...(opens in new tab)
- Apple's third-generation Foundation Models explained - 9to5Mac(opens in new tab)
- The Third Generation of Apple's Foundation Models and AFM Core Advanced - MacStories(opens in new tab)
- Apple reveals new AI architecture built around Google Gemini models(opens in new tab)
- Introducing the Third Generation of Apple's Foundation Models(opens in new tab)
- Introducing the Third Generation of Apple's Foundation ...(opens in new tab)
- Apple's third-generation Foundation Models explained - 9to5Mac(opens in new tab)
- Apple's Third-Generation Foundation Models: A Developer's Read ...(opens in new tab)
- Introducing the Third Generation of Apple's Foundation Models(opens in new tab)
- Meet the Foundation Models framework - WWDC25 - Apple Developer(opens in new tab)
