¿Qué diferencia a AFM 3 Core Advanced de los modelos anteriores de Apple en el dispositivo?

AFM 3 Core Advanced es un modelo disperso de 20 mil millones de parámetros que activa solo entre 1 y 4 mil millones de parámetros por solicitud, lo que lo hace mucho más capaz que el modelo denso original en el dispositivo de aproximadamente 3 mil millones de parámetros, mientras sigue siendo práctico para la inferencia en el dispositivo en silicon de Apple de alta capacidad.

¿Por qué el modelo en la nube más capaz de Apple se ejecuta en los servidores de Google en lugar de en silicon de Apple?

El blog de investigación de Apple describe la familia AFM completa como construida a medida en colaboración con Google. El análisis de los desarrolladores atribuye AFM 3 Cloud Pro específicamente a GPU de Nvidia en Google Cloud, refinado utilizando resultados del modelo Gemini. Apple distingue entre 'entrenado usando' Gemini y 'es' Gemini, pero la dependencia de infraestructura refleja los límites prácticos incluso de la integración vertical a escala de Apple.

¿Qué es el framework de Modelos de Fundación y pueden utilizarlo los desarrolladores?

El framework de Modelos de Fundación expone las capacidades del modelo en el dispositivo a las aplicaciones Swift. Ha estado disponible desde la WWDC25 y ahora acepta imágenes. El acceso a los niveles de nube del lado del servidor para desarrolladores de terceros no ha sido detallado completamente en la evidencia actual.

1 / 1

Modelos de Fundación de Apple Apple Intelligence WWDC26 IA en el Dispositivo Cómputo en la Nube Privada Google Cloud Framework de Modelos de Fundación breaking-news

Nyx Jun 13, 2026

Modelos de Fundación de Apple

La IA en la nube más potente de Apple funciona en los servidores de Google. A Apple le parece bien.

Puntos Clave

La alineación de cinco modelos AFM de Apple enruta las solicitudes entre niveles de dispositivo, Cómputo en la Nube Privada y Google Cloud según la complejidad de la tarea, un patrón de inferencia por niveles que vale la pena estudiar para cualquier implementación de IA en múltiples entornos.
AFM 3 Core Advanced incorpora 20 mil millones de parámetros en inferencia en el dispositivo activando solo entre 1 y 4 mil millones a la vez; la dispersión es la historia de ingeniería, no el recuento de parámetros del titular.
Incluso la arquitectura que prioriza la privacidad de Apple depende de infraestructura en la nube de terceros en su límite máximo de capacidad, un recordatorio práctico de que la integración vertical tiene límites cuando la inferencia de nivel frontera es el objetivo.

Nyx · Jun 13, 2026

En la WWDC26, Apple anunció cinco nuevos modelos de base. Uno de ellos vive en GPUs de Nvidia dentro de la infraestructura de Google, y entender por qué te dice mucho sobre dónde choca realmente contra su techo la IA en el dispositivo.

Imagina a la empresa más comprometida con la privacidad en el sector tecnológico de consumo subiendo al escenario de una keynote para anunciar, en esencia, que su modelo de IA en la nube más potente no vive en silicon de Apple. No vive en los centros de datos de Apple. Vive en GPUs de Nvidia dentro de la infraestructura de Google. Si has estado siguiendo la estrategia de IA de Apple desde 2024, cuando Private Cloud Compute se posicionó como la respuesta a todas las preocupaciones sobre la confianza en la nube, esa frase merece al menos una ceja levantada. Esto es lo que ocurrió realmente en la WWDC26, por qué la arquitectura tiene cierto sentido y qué significa si estás pensando en serio sobre las diferencias entre inferencia en el dispositivo y en la nube.

Cinco modelos, tres niveles de despliegue

Según el propio blog de investigación de machine learning de Apple, la tercera generación de Apple Foundation Models es una familia de cinco modelos descritos como "desarrollados a medida en colaboración con Google", que abarca desde la inferencia en el dispositivo hasta modelos basados en servidores que funcionan sobre Private Cloud Compute. Eso es una alineación arquitectónicamente más deliberada que el par original de 2024, formado por un modelo en el dispositivo de aproximadamente 3.000 millones de parámetros y un único modelo de servidor en Private Cloud Compute, tal como Marcus Mendes de 9to5Mac explicó en su análisis del 11 de junio de 2026. Los dos modelos en el dispositivo son donde la historia del silicon de Apple se desarrolla de forma más legible. AFM 3 Core es el sucesor de aquel modelo denso original de 3.000 millones de parámetros, y Apple lo describe como un salto de calidad. AFM 3 Core Advanced es el protagonista: un modelo disperso de 20.000 millones de parámetros que activa solo entre 1.000 y 4.000 millones de parámetros a la vez dependiendo de la solicitud, según la publicación de investigación de Apple. Apple afirma que esto permite funciones como voces expresivas y dictado de mayor precisión, y señala que el modelo está "desbloqueado y optimizado para nuestros sistemas Apple silicon más potentes". La activación dispersa a esa escala, ejecutándose localmente en hardware de consumo, es una ingeniería genuinamente interesante. Es básicamente el mismo truco que hace eficientes a los modelos Mixture-of-Experts a escala de centros de datos (una consultora que activa solo dos de sus ocho socios por llamada con un cliente), salvo que Apple lo integra en un dispositivo que llevas en el bolsillo.

El detalle de Google Cloud que merece reflexión

Aquí es donde la arquitectura se vuelve instructiva para cualquiera que piense en el despliegue híbrido en su propio trabajo. Mendes de 9to5Mac lo reportó sin rodeos: uno de los cinco modelos "vive en los servidores de Google ejecutándose en chips de Nvidia". La descripción orientada a desarrolladores del blog de investigación de Apple describe a toda la familia como construida en colaboración con Google, y el análisis para desarrolladores de ofox.ai identifica ese modelo en la nube más potente como AFM 3 Cloud Pro, refinado usando resultados de los modelos frontier Gemini de Google y ejecutándose en GPUs de Nvidia alojadas en Google Cloud. La posición de Apple, según ese mismo análisis, distingue cuidadosamente entre un modelo "entrenado usando" resultados de Gemini y uno que simplemente "es" Gemini. Esa distinción importa comercialmente y para la identidad de marca de Apple. Si se sostiene en todos los sentidos técnicos es una conversación que continuará mucho más allá de la temporada de la WWDC. La conclusión práctica para los profesionales de ML tiene menos que ver con las relaciones de Apple con sus proveedores y más con la lógica de enrutamiento de inferencia que esto implica. Apple no envía cada solicitud a Google. La arquitectura enruta las solicitudes entre niveles según la complejidad, con los modelos en el dispositivo manejando lo que pueden y los modelos de servidor manejando lo que no pueden. Ese tipo de enrutamiento por niveles, donde reservas la costosa inferencia en la nube para las tareas que realmente la necesitan, es un patrón que merece estudio independientemente de si alguna vez escribes una línea de Swift.

Lo que el modelo disperso en el dispositivo nos enseña

AFM 3 Core Advanced merece un análisis más detallado como caso de estudio de ingeniería. El blog de investigación de Apple lo describe como un modelo de 20.000 millones de parámetros que activa solo entre 1.000 y 4.000 millones de parámetros por solicitud, nativo multimodal y construido sobre lo que Apple denomina una arquitectura dispersa. El modelo está reservado para el silicon más potente de Apple, lo cual tiene sentido: incluso con activación dispersa, le estás pidiendo a un modelo de 20.000 millones de parámetros que ejecute inferencia localmente. El modelo original en el dispositivo de 2024 tenía aproximadamente 3.000 millones de parámetros en total. Eso es un salto significativo en capacidad bruta del modelo, y llegó sin necesitar una llamada a la nube para las tareas que cubre. Para quienes están aprendiendo sobre ML en el dispositivo, esto es una ilustración útil de por qué el recuento de parámetros por sí solo es un titular engañoso. Un modelo disperso de 20.000 millones de parámetros que activa entre 1.000 y 4.000 millones se comporta, en tiempo de inferencia, más como un modelo de entre 1.000 y 4.000 millones de parámetros en términos de demanda de cómputo. La dispersión es la característica, no los 20.000 millones. Apple apuesta a que la activación dispersa les permite ofrecer una experiencia de modelo cualitativamente mejor en el dispositivo sin los costos térmicos y de batería que impondría un modelo completamente denso de 20.000 millones de parámetros.

Lo que esto significa para cómo piensas en el despliegue de IA

La arquitectura de cinco modelos de Apple es una ilustración más clara de la estrategia de inferencia por niveles que la mayoría de los ejemplos en libros de texto. Tienes un modelo denso pequeño para amplia compatibilidad, un modelo grande disperso para hardware local potente, niveles de Private Cloud Compute para tareas que superan la capacidad del dispositivo mientras permanecen dentro de la infraestructura de Apple, y un modelo alojado en Google en lo más alto de la escala de capacidad para las solicitudes más exigentes. Cada nivel representa una compensación deliberada entre latencia, exposición a la privacidad, costo de cómputo y techo de capacidad. La lección más amplia, aplicable mucho más allá del ecosistema de Apple, es que la integración vertical tiene límites prácticos. Incluso una empresa con sus propios chips, sus propios sistemas operativos y su propia infraestructura en la nube concluyó que el techo de capacidad para sus cargas de trabajo de IA más exigentes se servía mejor con un proveedor de nube externo ejecutando hardware externo. Eso no es un fracaso de estrategia. Es un reconocimiento honesto de dónde reside la dificultad en la inferencia de modelos frontier. Si estás diseñando un sistema de IA multinivel, ya sea para una aplicación móvil, una herramienta empresarial o un pipeline de investigación, Apple acaba de publicar un caso de estudio bastante detallado sobre cómo pensar en la lógica de enrutamiento. El hecho de que se ejecute en GPUs de Nvidia en los centros de datos de Google es casi irrelevante. Presta atención a la documentación para desarrolladores sobre cómo el framework Foundation Models expone, o no expone, los niveles en la nube a las aplicaciones Swift de terceros. La superficie de la API en el dispositivo ha estado disponible desde la WWDC25. Cuánta de la capacidad del lado del servidor abra Apple a los desarrolladores determinará lo que realmente se puede construir sobre esta plataforma.

Fuentes

Preguntas y respuestas

Cinco modelos en total: dos modelos en el dispositivo (AFM 3 Core y AFM 3 Core Advanced) y tres modelos basados en servidor, incluido uno que se ejecuta en GPU de Nvidia en Google Cloud.