Apple Menjalankan AI Cloud Paling Canggihnya di Server Google. Apple Tidak Masalah dengan Itu.
Poin utama
- Jajaran lima model AFM Apple merutekan permintaan melalui tingkatan on-device, Private Cloud Compute, dan Google Cloud berdasarkan kompleksitas tugas — sebuah pola inferensi bertingkat yang layak dipelajari untuk setiap penerapan AI multi-lingkungan.
- AFM 3 Core Advanced memadatkan 20 miliar parameter ke dalam inferensi on-device dengan hanya mengaktifkan 1 hingga 4 miliar parameter sekaligus; tingkat kejarangannya adalah kisah rekayasanya, bukan jumlah parameter yang menjadi sorotan utama.
- Bahkan arsitektur yang mengutamakan privasi milik Apple bergantung pada infrastruktur cloud pihak ketiga di batas kemampuan tertingginya — pengingat praktis bahwa integrasi vertikal memiliki batasnya ketika inferensi tingkat mutakhir menjadi targetnya.
Pada WWDC26, Apple mengumumkan lima model fondasi baru. Salah satunya berjalan di GPU Nvidia dalam infrastruktur Google, dan memahami alasannya akan memberi tahu banyak hal tentang di mana AI on-device sebenarnya mencapai batasnya.
Di WWDC26, Apple mengumumkan lima model fondasi baru. Salah satunya berjalan di GPU Nvidia dalam infrastruktur Google, dan memahami alasannya akan memberi kamu banyak gambaran tentang di mana AI on-device sebenarnya mencapai batasnya.
Bayangkan perusahaan paling berorientasi privasi di industri teknologi konsumen melangkah ke panggung keynote dan mengumumkan, pada intinya, bahwa model AI cloud mereka yang paling canggih tidak berjalan di atas chip Apple. Tidak berjalan di pusat data Apple. Melainkan berjalan di GPU Nvidia dalam infrastruktur Google. Jika kamu sudah mengikuti strategi AI Apple sejak 2024, ketika Private Cloud Compute diposisikan sebagai jawaban atas semua kekhawatiran soal kepercayaan cloud, kalimat itu setidaknya layak mendapat satu alis yang terangkat. Berikut ini apa yang sebenarnya terjadi di WWDC26, mengapa arsitekturnya masuk akal dalam satu sisi tertentu, dan apa artinya jika kamu sedang berpikir serius tentang trade-off antara inferensi di perangkat versus cloud.
Lima Model, Tiga Tingkat Deployment
Menurut blog riset machine learning Apple sendiri, generasi ketiga Apple Foundation Models adalah keluarga yang terdiri dari lima model yang digambarkan sebagai "dibangun secara khusus bekerja sama dengan Google," mencakup inferensi di perangkat hingga model berbasis server yang berjalan di Private Cloud Compute. Ini adalah susunan yang lebih disengaja secara arsitektur dibandingkan pasangan asli tahun 2024, yaitu model di perangkat berparameter sekitar 3 miliar dan satu model server Private Cloud Compute, sebagaimana diuraikan Marcus Mendes dari 9to5Mac dalam ulasannya pada 11 Juni 2026. Dua model di perangkat adalah tempat kisah chip Apple paling jelas terlihat. AFM 3 Core adalah penerus model dense berparameter 3 miliar yang asli, dengan Apple menggambarkannya sebagai menghadirkan peningkatan kualitas. AFM 3 Core Advanced adalah bintang utamanya: model sparse berparameter 20 miliar yang hanya mengaktifkan 1 hingga 4 miliar parameter sekaligus tergantung permintaannya, sesuai posting riset Apple. Apple menyebut ini memungkinkan fitur seperti suara yang lebih ekspresif dan dikte dengan akurasi lebih tinggi, serta mencatat bahwa model tersebut "diaktifkan oleh dan dioptimalkan untuk sistem Apple silicon kami yang paling mumpuni." Aktivasi sparse pada skala tersebut, yang berjalan secara lokal di perangkat keras konsumen, adalah rekayasa yang benar-benar menarik. Ini kurang lebih trik yang sama yang membuat model Mixture-of-Experts efisien di skala pusat data (seperti sebuah firma konsultan yang hanya mengaktifkan dua dari delapan partnernya per sesi klien), bedanya Apple menyematkannya di dalam perangkat yang kamu bawa di saku.
Detail Google Cloud yang Perlu Direnungkan
Di sinilah arsitekturnya menjadi pelajaran berharga bagi siapa saja yang memikirkan deployment hybrid dalam pekerjaannya sendiri. Mendes dari 9to5Mac melaporkannya secara gamblang: salah satu dari lima model tersebut "berada di server Google yang berjalan di chip Nvidia." Tulisan berorientasi developer dari blog riset Apple menggambarkan keseluruhan keluarga model sebagai dibangun bekerja sama dengan Google, dan analisis developer dari ofox.ai mengidentifikasi model cloud paling canggih tersebut sebagai AFM 3 Cloud Pro, yang disempurnakan menggunakan output dari model frontier Gemini milik Google dan berjalan di GPU Nvidia yang di-hosting di Google Cloud. Posisi Apple, berdasarkan analisis yang sama, dengan hati-hati membedakan model yang "dilatih menggunakan" output Gemini dari model yang secara langsung "merupakan" Gemini. Perbedaan itu penting secara komersial dan demi identitas merek Apple. Apakah perbedaan ini bertahan dalam setiap pengertian teknis adalah percakapan yang akan berlanjut jauh melewati musim WWDC. Kesimpulan praktis bagi para praktisi ML lebih sedikit berkaitan dengan hubungan vendor Apple dan lebih banyak tentang logika routing inferensi yang diimplikasikannya. Apple tidak mengirim setiap permintaan ke Google. Arsitekturnya merutekan permintaan ke berbagai tingkat tergantung kompleksitasnya, dengan model di perangkat menangani apa yang bisa mereka tangani dan model server menangani sisanya. Jenis routing bertingkat seperti ini, di mana kamu menyimpan inferensi cloud yang mahal untuk tugas-tugas yang benar-benar membutuhkannya, adalah pola yang layak dipelajari terlepas dari apakah kamu pernah menulis satu baris Swift pun.
Apa yang Diajarkan Model Sparse Di Perangkat kepada Kita
AFM 3 Core Advanced layak ditelaah lebih dalam sebagai studi kasus rekayasa. Blog riset Apple menggambarkannya sebagai model berparameter 20 miliar yang hanya mengaktifkan 1 hingga 4 miliar parameter per permintaan, bersifat multimodal secara native dan dibangun di atas apa yang Apple sebut sebagai arsitektur sparse. Model ini dikhususkan untuk chip Apple yang paling mumpuni, yang masuk akal: bahkan dengan aktivasi sparse, kamu meminta model berparameter 20 miliar untuk menjalankan inferensi secara lokal. Model di perangkat asli tahun 2024 memiliki total sekitar 3 miliar parameter. Itu adalah lompatan yang berarti dalam kapasitas model mentah, dan hal ini hadir tanpa memerlukan panggilan cloud untuk tugas-tugas yang dicakupnya. Bagi siapa saja yang sedang belajar tentang ML di perangkat, ini adalah ilustrasi yang berguna tentang mengapa jumlah parameter saja merupakan angka headline yang menyesatkan. Model sparse berparameter 20 miliar yang mengaktifkan 1 hingga 4 miliar parameter berperilaku, pada saat inferensi, lebih seperti model berparameter 1 hingga 4 miliar dalam hal kebutuhan komputasi. Sparsity-lah yang menjadi fitur utama, bukan angka 20 miliarnya. Apple bertaruh bahwa aktivasi sparse memungkinkan mereka menghadirkan pengalaman model yang secara kualitatif lebih baik di perangkat tanpa biaya termal dan baterai yang akan dikenakan oleh model dense berparameter 20 miliar secara penuh.
Apa Artinya Bagi Cara Kamu Memikirkan Deployment AI
Arsitektur lima model Apple adalah ilustrasi strategi inferensi bertingkat yang lebih jelas dibandingkan kebanyakan contoh dalam buku teks. Ada model kecil yang dense untuk kompatibilitas luas, model besar yang sparse untuk perangkat keras lokal yang mumpuni, tingkat Private Cloud Compute untuk tugas-tugas yang melampaui kapasitas di perangkat namun tetap dalam infrastruktur Apple, dan model yang di-hosting Google di puncak tangga kemampuan untuk permintaan yang paling menuntut. Setiap tingkat mewakili trade-off yang disengaja antara latensi, paparan privasi, biaya komputasi, dan batas kemampuan. Pelajaran yang lebih luas, yang berlaku jauh di luar ekosistem Apple, adalah bahwa integrasi vertikal memiliki batas praktis. Bahkan perusahaan dengan chip sendiri, sistem operasi sendiri, dan infrastruktur cloud sendiri menyimpulkan bahwa batas kemampuan untuk beban kerja AI mereka yang paling menuntut paling baik dilayani oleh penyedia cloud pihak ketiga yang menjalankan perangkat keras pihak ketiga. Itu bukan kegagalan strategi. Itu adalah pengakuan jujur tentang di mana letak kesulitan sesungguhnya dalam inferensi model frontier. Jika kamu sedang merancang sistem AI multi-tingkat, baik untuk aplikasi mobile, alat enterprise, maupun pipeline riset, Apple baru saja menerbitkan studi kasus yang cukup detail tentang cara memikirkan logika routing-nya. Fakta bahwa sistem tersebut berjalan di GPU Nvidia di pusat data Google hampir tidak relevan dengan intinya. Perhatikan dokumentasi developer tentang bagaimana framework Foundation Models mengekspos, atau tidak mengekspos, tingkat cloud kepada aplikasi Swift pihak ketiga. Permukaan API di perangkat telah tersedia sejak WWDC25. Seberapa besar kemampuan sisi server yang Apple buka untuk para developer akan menentukan apa yang sebenarnya bisa dibangun di atas stack ini.
Sumber
- Introducing the Third Generation of Apple's Foundation Models(opens in new tab)
- Apple's third-generation Foundation Models explained - 9to5Mac(opens in new tab)
- The Third Generation of Apple's Foundation Models and AFM Core Advanced - MacStories(opens in new tab)
- Apple's Third-Generation Foundation Models: A Developer's Read(opens in new tab)
- Meet the Foundation Models framework - WWDC25 - Apple Developer(opens in new tab)
Sumber
- Introducing the Third Generation of Apple's Foundation ...(opens in new tab)
- Apple's third-generation Foundation Models explained - 9to5Mac(opens in new tab)
- The Third Generation of Apple's Foundation Models and AFM Core Advanced - MacStories(opens in new tab)
- Apple reveals new AI architecture built around Google Gemini models(opens in new tab)
- Introducing the Third Generation of Apple's Foundation Models(opens in new tab)
- Introducing the Third Generation of Apple's Foundation ...(opens in new tab)
- Apple's third-generation Foundation Models explained - 9to5Mac(opens in new tab)
- Apple's Third-Generation Foundation Models: A Developer's Read ...(opens in new tab)
- Introducing the Third Generation of Apple's Foundation Models(opens in new tab)
- Meet the Foundation Models framework - WWDC25 - Apple Developer(opens in new tab)
