Apple का सबसे शक्तिशाली क्लाउड AI Google के सर्वर पर चलता है। Apple को इससे कोई आपत्ति नहीं।
मुख्य बातें
- Apple की पांच-मॉडल AFM लाइनअप कार्य की जटिलता के आधार पर अनुरोधों को ऑन-डिवाइस, Private Cloud Compute और Google Cloud स्तरों पर रूट करती है — यह एक स्तरीय इन्फेरेंस पैटर्न है जो किसी भी मल्टी-एनवायरनमेंट AI डिप्लॉयमेंट के लिए अध्ययन योग्य है।
- AFM 3 Core Advanced एक बार में केवल 1 से 4 बिलियन पैरामीटर सक्रिय करके 20 बिलियन पैरामीटर को ऑन-डिवाइस इन्फेरेंस में समेटता है; इंजीनियरिंग की असली कहानी इसकी विरलता (sparsity) है, न कि हेडलाइन पैरामीटर संख्या।
- यहाँ तक कि Apple की प्राइवेसी-फर्स्ट आर्किटेक्चर भी अपनी क्षमता की सीमा पर तृतीय-पक्ष क्लाउड इन्फ्रास्ट्रक्चर पर निर्भर करती है — यह एक व्यावहारिक अनुस्मारक है कि जब फ्रंटियर-स्तरीय इन्फेरेंस लक्ष्य हो तो वर्टिकल इंटीग्रेशन की सीमाएँ होती हैं।
WWDC26 में, Apple ने पाँच नए फ़ाउंडेशन मॉडल की घोषणा की। उनमें से एक Google के इन्फ्रास्ट्रक्चर में Nvidia GPU पर चलता है, और यह समझना कि ऐसा क्यों है — आपको बहुत कुछ बताता है कि ऑन-डिवाइस AI वास्तव में कहाँ अपनी सीमा तक पहुँच जाता है।
WWDC26 में, Apple ने पाँच नए फ़ाउंडेशन मॉडल की घोषणा की। इनमें से एक Google के इंफ्रास्ट्रक्चर में Nvidia GPUs पर चलता है, और यह समझना कि ऐसा क्यों है — आपको बहुत कुछ बताता है कि ऑन-डिवाइस AI की सीमा असल में कहाँ आकर खत्म होती है।
कल्पना कीजिए कि कंज्यूमर टेक की सबसे ज़्यादा प्राइवेसी-केंद्रित कंपनी एक कीनोट स्टेज पर आती है और अनिवार्य रूप से यह घोषणा करती है कि उसका सबसे सक्षम क्लाउड AI मॉडल Apple सिलिकॉन पर नहीं चलता। यह Apple के डेटा सेंटरों में नहीं है। यह Google के इंफ्रास्ट्रक्चर के अंदर Nvidia GPU पर चलता है। अगर आप 2024 से Apple की AI रणनीति को ट्रैक कर रहे हैं, जब Private Cloud Compute को क्लाउड-ट्रस्ट से जुड़ी हर चिंता के जवाब के रूप में पेश किया गया था, तो यह वाक्य कम से कम एक बार भौंहें चढ़ाने लायक ज़रूर है। WWDC26 में वास्तव में क्या हुआ, यह आर्किटेक्चर किस हद तक समझ में आता है, और अगर आप ऑन-डिवाइस बनाम क्लाउड इनफरेंस के ट्रेड-ऑफ के बारे में गंभीरता से सोच रहे हैं तो इसका क्या मतलब है — यही सब यहाँ समझाया गया है।
पाँच मॉडल, तीन डिप्लॉयमेंट टियर
Apple के अपने मशीन लर्निंग रिसर्च ब्लॉग के अनुसार, Apple Foundation Models की तीसरी पीढ़ी पाँच मॉडलों का एक परिवार है, जिसे "Google के सहयोग से कस्टम-निर्मित" बताया गया है। यह ऑन-डिवाइस इनफरेंस से लेकर Private Cloud Compute पर चलने वाले सर्वर-आधारित मॉडलों तक फैला हुआ है। यह 2024 की उस मूल जोड़ी से आर्किटेक्चरल दृष्टि से कहीं अधिक सुविचारित लाइनअप है, जिसमें लगभग 3-बिलियन-पैरामीटर का एक ऑन-डिवाइस मॉडल और एक अकेला Private Cloud Compute सर्वर मॉडल था — जैसा कि 9to5Mac के Marcus Mendes ने 11 जून 2026 के अपने विश्लेषण में बताया।
दो ऑन-डिवाइस मॉडल वे हैं जहाँ Apple के सिलिकॉन की कहानी सबसे स्पष्ट रूप से सामने आती है। AFM 3 Core उस मूल 3-बिलियन-पैरामीटर डेंस मॉडल का उत्तराधिकारी है, और Apple इसे गुणवत्ता में एक कदम ऊपर बताता है। AFM 3 Core Advanced मुख्य आकर्षण है: एक 20-बिलियन-पैरामीटर स्पार्स मॉडल जो Apple के रिसर्च पोस्ट के अनुसार अनुरोध के आधार पर एक बार में केवल 1 से 4 बिलियन पैरामीटर को ही सक्रिय करता है। Apple का कहना है कि इससे एक्सप्रेसिव वॉइस और अधिक सटीक डिक्टेशन जैसी सुविधाएँ संभव होती हैं, और यह भी बताया गया है कि यह मॉडल "हमारे सबसे सक्षम Apple सिलिकॉन सिस्टम द्वारा अनलॉक और ऑप्टिमाइज़ किया गया है।" उस स्तर पर स्पार्स एक्टिवेशन, जो कंज्यूमर हार्डवेयर पर लोकल रूप से चलता है, वास्तव में दिलचस्प इंजीनियरिंग है। यह लगभग वही तरीका है जो Mixture-of-Experts मॉडल को डेटासेंटर स्तर पर कुशल बनाता है (एक कंसल्टिंग फर्म की तरह जो प्रत्येक क्लाइंट कॉल पर अपने आठ में से केवल दो पार्टनर को सक्रिय करती है), सिवाय इसके कि Apple इसे उस डिवाइस के अंदर भेज रहा है जिसे आप अपनी जेब में लेकर चलते हैं।
वह Google क्लाउड विवरण जो सोचने पर मजबूर करे
यहाँ वह जगह है जहाँ यह आर्किटेक्चर उन लोगों के लिए शिक्षाप्रद बन जाता है जो अपने काम में हाइब्रिड डिप्लॉयमेंट के बारे में सोच रहे हैं। 9to5Mac के Mendes ने इसे सीधे शब्दों में लिखा: पाँच मॉडलों में से एक "Google के सर्वरों में Nvidia चिप्स पर चलता है।" Apple के रिसर्च ब्लॉग का डेवलपर-केंद्रित विवरण पूरे परिवार को Google के सहयोग से निर्मित बताता है, और ofox.ai के डेवलपर विश्लेषण से पता चलता है कि वह सबसे सक्षम क्लाउड मॉडल AFM 3 Cloud Pro है, जिसे Google के Gemini फ्रंटियर मॉडलों के आउटपुट का उपयोग करके परिष्कृत किया गया है और जो Google Cloud में होस्ट किए गए Nvidia GPU पर चलता है।
उसी विश्लेषण के अनुसार Apple की स्थिति सावधानीपूर्वक इस अंतर को स्पष्ट करती है कि एक मॉडल Gemini आउटपुट का "उपयोग करके प्रशिक्षित" किया गया है और एक मॉडल जो सीधे Gemini "है।" यह अंतर व्यावसायिक रूप से और Apple की ब्रांड पहचान के लिए महत्वपूर्ण है। यह हर तकनीकी अर्थ में कितना सटीक है, यह बहस WWDC सीज़न के बाद भी जारी रहेगी।
ML प्रैक्टिशनर्स के लिए व्यावहारिक सबक Apple के वेंडर संबंधों के बारे में कम और उस इनफरेंस रूटिंग लॉजिक के बारे में अधिक है जो यह आर्किटेक्चर दर्शाता है। Apple हर अनुरोध Google को नहीं भेज रहा। यह आर्किटेक्चर जटिलता के आधार पर अनुरोधों को टियर्स में रूट करता है — ऑन-डिवाइस मॉडल वह संभालते हैं जो वे संभाल सकते हैं, और सर्वर मॉडल वह संभालते हैं जो वे नहीं कर सकते। इस तरह की टियर्ड रूटिंग, जहाँ आप महंगे क्लाउड इनफरेंस को उन कार्यों के लिए आरक्षित रखते हैं जिन्हें वास्तव में इसकी ज़रूरत है — यह एक ऐसा पैटर्न है जिसे समझना ज़रूरी है, चाहे आप Swift की एक भी लाइन कभी न लिखें।
ऑन-डिवाइस स्पार्स मॉडल से क्या सीखें
AFM 3 Core Advanced एक इंजीनियरिंग केस स्टडी के रूप में करीब से देखने योग्य है। Apple का रिसर्च ब्लॉग इसे 20-बिलियन-पैरामीटर मॉडल के रूप में वर्णित करता है जो प्रति अनुरोध केवल 1 से 4 बिलियन पैरामीटर को सक्रिय करता है, जो नेटिव रूप से मल्टीमोडल है और Apple के स्पार्स आर्किटेक्चर पर बना है। यह मॉडल Apple के सबसे सक्षम सिलिकॉन के लिए आरक्षित है, जो समझ में आता है: स्पार्स एक्टिवेशन के बावजूद भी आप 20-बिलियन-पैरामीटर मॉडल से लोकल इनफरेंस चलाने की माँग कर रहे हैं।
2024 का मूल ऑन-डिवाइस मॉडल कुल मिलाकर लगभग 3 बिलियन पैरामीटर का था। यह रॉ मॉडल क्षमता में एक महत्वपूर्ण छलाँग है, और यह उन कार्यों के लिए क्लाउड कॉल की आवश्यकता के बिना आई जिन्हें यह कवर करता है।
ऑन-डिवाइस ML सीखने वाले किसी भी व्यक्ति के लिए, यह इस बात का एक उपयोगी उदाहरण है कि पैरामीटर काउंट अकेला एक भ्रामक हेडलाइन नंबर क्यों है। एक 20-बिलियन-पैरामीटर स्पार्स मॉडल जो 1 से 4 बिलियन पैरामीटर को सक्रिय करता है, इनफरेंस के समय कंप्यूट डिमांड के मामले में 1-से-4-बिलियन-पैरामीटर मॉडल की तरह व्यवहार करता है। स्पार्सिटी ही असली विशेषता है, न कि 20 बिलियन की संख्या। Apple दाँव लगा रहा है कि स्पार्स एक्टिवेशन उन्हें ऑन-डिवाइस एक गुणात्मक रूप से बेहतर मॉडल अनुभव भेजने देता है — बिना उस थर्मल और बैटरी लागत के जो एक पूरी तरह से डेंस 20-बिलियन-पैरामीटर मॉडल थोपता।
AI डिप्लॉयमेंट के बारे में आपकी सोच के लिए इसका क्या अर्थ है
Apple का पाँच-मॉडल आर्किटेक्चर टियर्ड इनफरेंस रणनीति का अधिकांश पाठ्यपुस्तकीय उदाहरणों से कहीं अधिक स्पष्ट चित्रण है। आपके पास व्यापक संगतता के लिए एक डेंस स्मॉल मॉडल है, सक्षम लोकल हार्डवेयर के लिए एक स्पार्स लार्ज मॉडल है, ऑन-डिवाइस क्षमता से परे के कार्यों के लिए Private Cloud Compute टियर्स हैं जो Apple के इंफ्रास्ट्रक्चर के भीतर रहते हैं, और सबसे माँग वाले अनुरोधों के लिए क्षमता सीढ़ी के शीर्ष पर एक Google-होस्टेड मॉडल है।
प्रत्येक टियर लेटेंसी, प्राइवेसी एक्सपोज़र, कंप्यूट लागत और क्षमता सीलिंग के बीच एक जानबूझकर किया गया ट्रेड-ऑफ दर्शाता है।
इसका व्यापक सबक, जो Apple के इकोसिस्टम से परे भी लागू होता है, यह है कि वर्टिकल इंटीग्रेशन की व्यावहारिक सीमाएँ होती हैं। यहाँ तक कि अपनी चिप्स, अपने ऑपरेटिंग सिस्टम और अपने क्लाउड इंफ्रास्ट्रक्चर वाली एक कंपनी ने भी यह निष्कर्ष निकाला कि उसके सबसे माँग वाले AI वर्कलोड के लिए क्षमता सीलिंग एक थर्ड-पार्टी क्लाउड प्रदाता द्वारा थर्ड-पार्टी हार्डवेयर पर बेहतर तरीके से पूरी होती है। यह रणनीति की विफलता नहीं है। यह इस बात की ईमानदार स्वीकृति है कि फ्रंटियर मॉडल इनफरेंस में असली कठिनाई कहाँ है।
अगर आप एक मल्टी-टियर AI सिस्टम डिज़ाइन कर रहे हैं — चाहे किसी मोबाइल ऐप के लिए, एंटरप्राइज़ टूल के लिए, या रिसर्च पाइपलाइन के लिए — Apple ने अभी-अभी रूटिंग लॉजिक के बारे में सोचने का एक काफी विस्तृत केस स्टडी प्रकाशित किया है। यह तथ्य कि यह Google के डेटा सेंटरों में Nvidia GPU पर चलता है, लगभग गौण है।
थर्ड-पार्टी Swift ऐप्स के लिए डेवलपर डॉक्युमेंटेशन पर नज़र रखें कि Foundation Models फ्रेमवर्क क्लाउड टियर्स को कितना एक्सपोज़ करता है — या नहीं करता। ऑन-डिवाइस API सर्फेस WWDC25 से उपलब्ध है। Apple डेवलपर्स के लिए सर्वर-साइड क्षमता का कितना हिस्सा खोलता है, यह तय करेगा कि इस स्टैक पर वास्तव में क्या बनाया जा सकता है।
स्रोत
- Introducing the Third Generation of Apple's Foundation Models(नए टैब में खुलता है)
- Apple's third-generation Foundation Models explained - 9to5Mac(नए टैब में खुलता है)
- The Third Generation of Apple's Foundation Models and AFM Core Advanced - MacStories(नए टैब में खुलता है)
- Apple's Third-Generation Foundation Models: A Developer's Read(नए टैब में खुलता है)
- Meet the Foundation Models framework - WWDC25 - Apple Developer(नए टैब में खुलता है)
स्रोत
- Introducing the Third Generation of Apple's Foundation ...(नए टैब में खुलता है)
- Apple's third-generation Foundation Models explained - 9to5Mac(नए टैब में खुलता है)
- The Third Generation of Apple's Foundation Models and AFM Core Advanced - MacStories(नए टैब में खुलता है)
- Apple reveals new AI architecture built around Google Gemini models(नए टैब में खुलता है)
- Introducing the Third Generation of Apple's Foundation Models(नए टैब में खुलता है)
- Introducing the Third Generation of Apple's Foundation ...(नए टैब में खुलता है)
- Apple's third-generation Foundation Models explained - 9to5Mac(नए टैब में खुलता है)
- Apple's Third-Generation Foundation Models: A Developer's Read ...(नए टैब में खुलता है)
- Introducing the Third Generation of Apple's Foundation Models(नए टैब में खुलता है)
- Meet the Foundation Models framework - WWDC25 - Apple Developer(नए टैब में खुलता है)
