La IA en la nube más potente de Apple funciona en los servidores de Google. A Apple le parece bien.
Puntos Clave
- La alineación de cinco modelos AFM de Apple enruta las solicitudes entre niveles de dispositivo, Cómputo en la Nube Privada y Google Cloud según la complejidad de la tarea, un patrón de inferencia por niveles que vale la pena estudiar para cualquier implementación de IA en múltiples entornos.
- AFM 3 Core Advanced incorpora 20 mil millones de parámetros en inferencia en el dispositivo activando solo entre 1 y 4 mil millones a la vez; la dispersión es la historia de ingeniería, no el recuento de parámetros del titular.
- Incluso la arquitectura que prioriza la privacidad de Apple depende de infraestructura en la nube de terceros en su límite máximo de capacidad, un recordatorio práctico de que la integración vertical tiene límites cuando la inferencia de nivel frontera es el objetivo.
En la WWDC26, Apple anunció cinco nuevos modelos de base. Uno de ellos vive en GPUs de Nvidia dentro de la infraestructura de Google, y entender por qué te dice mucho sobre dónde choca realmente contra su techo la IA en el dispositivo.
Imagina a la empresa más comprometida con la privacidad en el sector tecnológico de consumo subiendo al escenario de una keynote para anunciar, en esencia, que su modelo de IA en la nube más potente no vive en silicon de Apple. No vive en los centros de datos de Apple. Vive en GPUs de Nvidia dentro de la infraestructura de Google. Si has estado siguiendo la estrategia de IA de Apple desde 2024, cuando Private Cloud Compute se posicionó como la respuesta a todas las preocupaciones sobre la confianza en la nube, esa frase merece al menos una ceja levantada. Esto es lo que ocurrió realmente en la WWDC26, por qué la arquitectura tiene cierto sentido y qué significa si estás pensando en serio sobre las diferencias entre inferencia en el dispositivo y en la nube.
Cinco modelos, tres niveles de despliegue
Según el propio blog de investigación de machine learning de Apple, la tercera generación de Apple Foundation Models es una familia de cinco modelos descritos como "desarrollados a medida en colaboración con Google", que abarca desde la inferencia en el dispositivo hasta modelos basados en servidores que funcionan sobre Private Cloud Compute. Eso es una alineación arquitectónicamente más deliberada que el par original de 2024, formado por un modelo en el dispositivo de aproximadamente 3.000 millones de parámetros y un único modelo de servidor en Private Cloud Compute, tal como Marcus Mendes de 9to5Mac explicó en su análisis del 11 de junio de 2026. Los dos modelos en el dispositivo son donde la historia del silicon de Apple se desarrolla de forma más legible. AFM 3 Core es el sucesor de aquel modelo denso original de 3.000 millones de parámetros, y Apple lo describe como un salto de calidad. AFM 3 Core Advanced es el protagonista: un modelo disperso de 20.000 millones de parámetros que activa solo entre 1.000 y 4.000 millones de parámetros a la vez dependiendo de la solicitud, según la publicación de investigación de Apple. Apple afirma que esto permite funciones como voces expresivas y dictado de mayor precisión, y señala que el modelo está "desbloqueado y optimizado para nuestros sistemas Apple silicon más potentes". La activación dispersa a esa escala, ejecutándose localmente en hardware de consumo, es una ingeniería genuinamente interesante. Es básicamente el mismo truco que hace eficientes a los modelos Mixture-of-Experts a escala de centros de datos (una consultora que activa solo dos de sus ocho socios por llamada con un cliente), salvo que Apple lo integra en un dispositivo que llevas en el bolsillo.
El detalle de Google Cloud que merece reflexión
Aquí es donde la arquitectura se vuelve instructiva para cualquiera que piense en el despliegue híbrido en su propio trabajo. Mendes de 9to5Mac lo reportó sin rodeos: uno de los cinco modelos "vive en los servidores de Google ejecutándose en chips de Nvidia". La descripción orientada a desarrolladores del blog de investigación de Apple describe a toda la familia como construida en colaboración con Google, y el análisis para desarrolladores de ofox.ai identifica ese modelo en la nube más potente como AFM 3 Cloud Pro, refinado usando resultados de los modelos frontier Gemini de Google y ejecutándose en GPUs de Nvidia alojadas en Google Cloud. La posición de Apple, según ese mismo análisis, distingue cuidadosamente entre un modelo "entrenado usando" resultados de Gemini y uno que simplemente "es" Gemini. Esa distinción importa comercialmente y para la identidad de marca de Apple. Si se sostiene en todos los sentidos técnicos es una conversación que continuará mucho más allá de la temporada de la WWDC. La conclusión práctica para los profesionales de ML tiene menos que ver con las relaciones de Apple con sus proveedores y más con la lógica de enrutamiento de inferencia que esto implica. Apple no envía cada solicitud a Google. La arquitectura enruta las solicitudes entre niveles según la complejidad, con los modelos en el dispositivo manejando lo que pueden y los modelos de servidor manejando lo que no pueden. Ese tipo de enrutamiento por niveles, donde reservas la costosa inferencia en la nube para las tareas que realmente la necesitan, es un patrón que merece estudio independientemente de si alguna vez escribes una línea de Swift.
Lo que el modelo disperso en el dispositivo nos enseña
AFM 3 Core Advanced merece un análisis más detallado como caso de estudio de ingeniería. El blog de investigación de Apple lo describe como un modelo de 20.000 millones de parámetros que activa solo entre 1.000 y 4.000 millones de parámetros por solicitud, nativo multimodal y construido sobre lo que Apple denomina una arquitectura dispersa. El modelo está reservado para el silicon más potente de Apple, lo cual tiene sentido: incluso con activación dispersa, le estás pidiendo a un modelo de 20.000 millones de parámetros que ejecute inferencia localmente. El modelo original en el dispositivo de 2024 tenía aproximadamente 3.000 millones de parámetros en total. Eso es un salto significativo en capacidad bruta del modelo, y llegó sin necesitar una llamada a la nube para las tareas que cubre. Para quienes están aprendiendo sobre ML en el dispositivo, esto es una ilustración útil de por qué el recuento de parámetros por sí solo es un titular engañoso. Un modelo disperso de 20.000 millones de parámetros que activa entre 1.000 y 4.000 millones se comporta, en tiempo de inferencia, más como un modelo de entre 1.000 y 4.000 millones de parámetros en términos de demanda de cómputo. La dispersión es la característica, no los 20.000 millones. Apple apuesta a que la activación dispersa les permite ofrecer una experiencia de modelo cualitativamente mejor en el dispositivo sin los costos térmicos y de batería que impondría un modelo completamente denso de 20.000 millones de parámetros.
Lo que esto significa para cómo piensas en el despliegue de IA
La arquitectura de cinco modelos de Apple es una ilustración más clara de la estrategia de inferencia por niveles que la mayoría de los ejemplos en libros de texto. Tienes un modelo denso pequeño para amplia compatibilidad, un modelo grande disperso para hardware local potente, niveles de Private Cloud Compute para tareas que superan la capacidad del dispositivo mientras permanecen dentro de la infraestructura de Apple, y un modelo alojado en Google en lo más alto de la escala de capacidad para las solicitudes más exigentes. Cada nivel representa una compensación deliberada entre latencia, exposición a la privacidad, costo de cómputo y techo de capacidad. La lección más amplia, aplicable mucho más allá del ecosistema de Apple, es que la integración vertical tiene límites prácticos. Incluso una empresa con sus propios chips, sus propios sistemas operativos y su propia infraestructura en la nube concluyó que el techo de capacidad para sus cargas de trabajo de IA más exigentes se servía mejor con un proveedor de nube externo ejecutando hardware externo. Eso no es un fracaso de estrategia. Es un reconocimiento honesto de dónde reside la dificultad en la inferencia de modelos frontier. Si estás diseñando un sistema de IA multinivel, ya sea para una aplicación móvil, una herramienta empresarial o un pipeline de investigación, Apple acaba de publicar un caso de estudio bastante detallado sobre cómo pensar en la lógica de enrutamiento. El hecho de que se ejecute en GPUs de Nvidia en los centros de datos de Google es casi irrelevante. Presta atención a la documentación para desarrolladores sobre cómo el framework Foundation Models expone, o no expone, los niveles en la nube a las aplicaciones Swift de terceros. La superficie de la API en el dispositivo ha estado disponible desde la WWDC25. Cuánta de la capacidad del lado del servidor abra Apple a los desarrolladores determinará lo que realmente se puede construir sobre esta plataforma.
Fuentes
- Introducing the Third Generation of Apple's Foundation Models(se abre en una pestaña nueva)
- Apple's third-generation Foundation Models explained - 9to5Mac(se abre en una pestaña nueva)
- The Third Generation of Apple's Foundation Models and AFM Core Advanced - MacStories(se abre en una pestaña nueva)
- Apple's Third-Generation Foundation Models: A Developer's Read(se abre en una pestaña nueva)
- Meet the Foundation Models framework - WWDC25 - Apple Developer(se abre en una pestaña nueva)
Fuentes
- Introducing the Third Generation of Apple's Foundation ...(se abre en una pestaña nueva)
- Apple's third-generation Foundation Models explained - 9to5Mac(se abre en una pestaña nueva)
- The Third Generation of Apple's Foundation Models and AFM Core Advanced - MacStories(se abre en una pestaña nueva)
- Apple reveals new AI architecture built around Google Gemini models(se abre en una pestaña nueva)
- Introducing the Third Generation of Apple's Foundation Models(se abre en una pestaña nueva)
- Introducing the Third Generation of Apple's Foundation ...(se abre en una pestaña nueva)
- Apple's third-generation Foundation Models explained - 9to5Mac(se abre en una pestaña nueva)
- Apple's Third-Generation Foundation Models: A Developer's Read ...(se abre en una pestaña nueva)
- Introducing the Third Generation of Apple's Foundation Models(se abre en una pestaña nueva)
- Meet the Foundation Models framework - WWDC25 - Apple Developer(se abre en una pestaña nueva)
