AFM 3 Core Advanced को Apple के पुराने ऑन-डिवाइस मॉडलों से क्या अलग बनाता है?

AFM 3 Core Advanced एक 20-बिलियन-पैरामीटर स्पार्स मॉडल है जो प्रति अनुरोध केवल 1 से 4 बिलियन पैरामीटर सक्रिय करता है, जो इसे मूल लगभग 3-बिलियन-पैरामीटर डेंस ऑन-डिवाइस मॉडल की तुलना में कहीं अधिक सक्षम बनाता है और सक्षम Apple सिलिकॉन पर ऑन-डिवाइस इन्फेरेंस के लिए व्यावहारिक भी रखता है।

Apple का सबसे सक्षम क्लाउड मॉडल Apple सिलिकॉन की बजाय Google के सर्वरों पर क्यों चलता है?

Apple का रिसर्च ब्लॉग पूरे AFM परिवार को Google के सहयोग से कस्टम-निर्मित बताता है। डेवलपर विश्लेषण AFM 3 Cloud Pro को विशेष रूप से Google Cloud में Nvidia GPUs पर चलने वाला और Gemini मॉडल आउटपुट का उपयोग करके परिष्कृत किया गया बताता है। Apple 'Gemini का उपयोग करके प्रशिक्षित' और 'Gemini है' के बीच अंतर करता है, लेकिन यह इन्फ्रास्ट्रक्चर निर्भरता Apple-स्तरीय वर्टिकल इंटीग्रेशन की व्यावहारिक सीमाओं को दर्शाती है।

Foundation Models फ्रेमवर्क क्या है और क्या डेवलपर इसका उपयोग कर सकते हैं?

Foundation Models फ्रेमवर्क Swift ऐप्स को ऑन-डिवाइस मॉडल क्षमताएँ प्रदान करता है। यह WWDC25 से उपलब्ध है और अब छवियाँ भी स्वीकार करता है। तृतीय-पक्ष डेवलपर्स के लिए सर्वर-साइड क्लाउड स्तरों तक पहुँच का वर्तमान साक्ष्य में पूरी तरह विवरण नहीं दिया गया है।

1 / 1

Apple Foundation Models Apple Intelligence WWDC26 ऑन-डिवाइस AI Private Cloud Compute Google Cloud Foundation Models Framework breaking-news

Nyx Jun 13, 2026

Apple Foundation Models Apple Foundation Models Apple के उन AI मॉडल्स का समूह है जो सीधे आपके device पर काम करते हैं — बिना internet की ज़रूरत के। ये models आपकी personal information को आपके phone या computer में ही process करते हैं, जिससे आपकी privacy सुरक्षित रहती है।

Apple का सबसे शक्तिशाली क्लाउड AI Google के सर्वर पर चलता है। Apple को इससे कोई आपत्ति नहीं।

मुख्य बातें

Apple की पांच-मॉडल AFM लाइनअप कार्य की जटिलता के आधार पर अनुरोधों को ऑन-डिवाइस, Private Cloud Compute और Google Cloud स्तरों पर रूट करती है — यह एक स्तरीय इन्फेरेंस पैटर्न है जो किसी भी मल्टी-एनवायरनमेंट AI डिप्लॉयमेंट के लिए अध्ययन योग्य है।
AFM 3 Core Advanced एक बार में केवल 1 से 4 बिलियन पैरामीटर सक्रिय करके 20 बिलियन पैरामीटर को ऑन-डिवाइस इन्फेरेंस में समेटता है; इंजीनियरिंग की असली कहानी इसकी विरलता (sparsity) है, न कि हेडलाइन पैरामीटर संख्या।
यहाँ तक कि Apple की प्राइवेसी-फर्स्ट आर्किटेक्चर भी अपनी क्षमता की सीमा पर तृतीय-पक्ष क्लाउड इन्फ्रास्ट्रक्चर पर निर्भर करती है — यह एक व्यावहारिक अनुस्मारक है कि जब फ्रंटियर-स्तरीय इन्फेरेंस लक्ष्य हो तो वर्टिकल इंटीग्रेशन की सीमाएँ होती हैं।

Nyx · Jun 13, 2026

WWDC26 में, Apple ने पाँच नए फ़ाउंडेशन मॉडल की घोषणा की। उनमें से एक Google के इन्फ्रास्ट्रक्चर में Nvidia GPU पर चलता है, और यह समझना कि ऐसा क्यों है — आपको बहुत कुछ बताता है कि ऑन-डिवाइस AI वास्तव में कहाँ अपनी सीमा तक पहुँच जाता है।

WWDC26 में, Apple ने पाँच नए फ़ाउंडेशन मॉडल की घोषणा की। इनमें से एक Google के इंफ्रास्ट्रक्चर में Nvidia GPUs पर चलता है, और यह समझना कि ऐसा क्यों है — आपको बहुत कुछ बताता है कि ऑन-डिवाइस AI की सीमा असल में कहाँ आकर खत्म होती है।

कल्पना कीजिए कि कंज्यूमर टेक की सबसे ज़्यादा प्राइवेसी-केंद्रित कंपनी एक कीनोट स्टेज पर आती है और अनिवार्य रूप से यह घोषणा करती है कि उसका सबसे सक्षम क्लाउड AI मॉडल Apple सिलिकॉन पर नहीं चलता। यह Apple के डेटा सेंटरों में नहीं है। यह Google के इंफ्रास्ट्रक्चर के अंदर Nvidia GPU पर चलता है। अगर आप 2024 से Apple की AI रणनीति को ट्रैक कर रहे हैं, जब Private Cloud Compute को क्लाउड-ट्रस्ट से जुड़ी हर चिंता के जवाब के रूप में पेश किया गया था, तो यह वाक्य कम से कम एक बार भौंहें चढ़ाने लायक ज़रूर है। WWDC26 में वास्तव में क्या हुआ, यह आर्किटेक्चर किस हद तक समझ में आता है, और अगर आप ऑन-डिवाइस बनाम क्लाउड इनफरेंस के ट्रेड-ऑफ के बारे में गंभीरता से सोच रहे हैं तो इसका क्या मतलब है — यही सब यहाँ समझाया गया है।

पाँच मॉडल, तीन डिप्लॉयमेंट टियर

Apple के अपने मशीन लर्निंग रिसर्च ब्लॉग के अनुसार, Apple Foundation Models की तीसरी पीढ़ी पाँच मॉडलों का एक परिवार है, जिसे "Google के सहयोग से कस्टम-निर्मित" बताया गया है। यह ऑन-डिवाइस इनफरेंस से लेकर Private Cloud Compute पर चलने वाले सर्वर-आधारित मॉडलों तक फैला हुआ है। यह 2024 की उस मूल जोड़ी से आर्किटेक्चरल दृष्टि से कहीं अधिक सुविचारित लाइनअप है, जिसमें लगभग 3-बिलियन-पैरामीटर का एक ऑन-डिवाइस मॉडल और एक अकेला Private Cloud Compute सर्वर मॉडल था — जैसा कि 9to5Mac के Marcus Mendes ने 11 जून 2026 के अपने विश्लेषण में बताया।

दो ऑन-डिवाइस मॉडल वे हैं जहाँ Apple के सिलिकॉन की कहानी सबसे स्पष्ट रूप से सामने आती है। AFM 3 Core उस मूल 3-बिलियन-पैरामीटर डेंस मॉडल का उत्तराधिकारी है, और Apple इसे गुणवत्ता में एक कदम ऊपर बताता है। AFM 3 Core Advanced मुख्य आकर्षण है: एक 20-बिलियन-पैरामीटर स्पार्स मॉडल जो Apple के रिसर्च पोस्ट के अनुसार अनुरोध के आधार पर एक बार में केवल 1 से 4 बिलियन पैरामीटर को ही सक्रिय करता है। Apple का कहना है कि इससे एक्सप्रेसिव वॉइस और अधिक सटीक डिक्टेशन जैसी सुविधाएँ संभव होती हैं, और यह भी बताया गया है कि यह मॉडल "हमारे सबसे सक्षम Apple सिलिकॉन सिस्टम द्वारा अनलॉक और ऑप्टिमाइज़ किया गया है।" उस स्तर पर स्पार्स एक्टिवेशन, जो कंज्यूमर हार्डवेयर पर लोकल रूप से चलता है, वास्तव में दिलचस्प इंजीनियरिंग है। यह लगभग वही तरीका है जो Mixture-of-Experts मॉडल को डेटासेंटर स्तर पर कुशल बनाता है (एक कंसल्टिंग फर्म की तरह जो प्रत्येक क्लाइंट कॉल पर अपने आठ में से केवल दो पार्टनर को सक्रिय करती है), सिवाय इसके कि Apple इसे उस डिवाइस के अंदर भेज रहा है जिसे आप अपनी जेब में लेकर चलते हैं।

वह Google क्लाउड विवरण जो सोचने पर मजबूर करे

यहाँ वह जगह है जहाँ यह आर्किटेक्चर उन लोगों के लिए शिक्षाप्रद बन जाता है जो अपने काम में हाइब्रिड डिप्लॉयमेंट के बारे में सोच रहे हैं। 9to5Mac के Mendes ने इसे सीधे शब्दों में लिखा: पाँच मॉडलों में से एक "Google के सर्वरों में Nvidia चिप्स पर चलता है।" Apple के रिसर्च ब्लॉग का डेवलपर-केंद्रित विवरण पूरे परिवार को Google के सहयोग से निर्मित बताता है, और ofox.ai के डेवलपर विश्लेषण से पता चलता है कि वह सबसे सक्षम क्लाउड मॉडल AFM 3 Cloud Pro है, जिसे Google के Gemini फ्रंटियर मॉडलों के आउटपुट का उपयोग करके परिष्कृत किया गया है और जो Google Cloud में होस्ट किए गए Nvidia GPU पर चलता है।

उसी विश्लेषण के अनुसार Apple की स्थिति सावधानीपूर्वक इस अंतर को स्पष्ट करती है कि एक मॉडल Gemini आउटपुट का "उपयोग करके प्रशिक्षित" किया गया है और एक मॉडल जो सीधे Gemini "है।" यह अंतर व्यावसायिक रूप से और Apple की ब्रांड पहचान के लिए महत्वपूर्ण है। यह हर तकनीकी अर्थ में कितना सटीक है, यह बहस WWDC सीज़न के बाद भी जारी रहेगी।

ML प्रैक्टिशनर्स के लिए व्यावहारिक सबक Apple के वेंडर संबंधों के बारे में कम और उस इनफरेंस रूटिंग लॉजिक के बारे में अधिक है जो यह आर्किटेक्चर दर्शाता है। Apple हर अनुरोध Google को नहीं भेज रहा। यह आर्किटेक्चर जटिलता के आधार पर अनुरोधों को टियर्स में रूट करता है — ऑन-डिवाइस मॉडल वह संभालते हैं जो वे संभाल सकते हैं, और सर्वर मॉडल वह संभालते हैं जो वे नहीं कर सकते। इस तरह की टियर्ड रूटिंग, जहाँ आप महंगे क्लाउड इनफरेंस को उन कार्यों के लिए आरक्षित रखते हैं जिन्हें वास्तव में इसकी ज़रूरत है — यह एक ऐसा पैटर्न है जिसे समझना ज़रूरी है, चाहे आप Swift की एक भी लाइन कभी न लिखें।

ऑन-डिवाइस स्पार्स मॉडल से क्या सीखें

AFM 3 Core Advanced एक इंजीनियरिंग केस स्टडी के रूप में करीब से देखने योग्य है। Apple का रिसर्च ब्लॉग इसे 20-बिलियन-पैरामीटर मॉडल के रूप में वर्णित करता है जो प्रति अनुरोध केवल 1 से 4 बिलियन पैरामीटर को सक्रिय करता है, जो नेटिव रूप से मल्टीमोडल है और Apple के स्पार्स आर्किटेक्चर पर बना है। यह मॉडल Apple के सबसे सक्षम सिलिकॉन के लिए आरक्षित है, जो समझ में आता है: स्पार्स एक्टिवेशन के बावजूद भी आप 20-बिलियन-पैरामीटर मॉडल से लोकल इनफरेंस चलाने की माँग कर रहे हैं।

2024 का मूल ऑन-डिवाइस मॉडल कुल मिलाकर लगभग 3 बिलियन पैरामीटर का था। यह रॉ मॉडल क्षमता में एक महत्वपूर्ण छलाँग है, और यह उन कार्यों के लिए क्लाउड कॉल की आवश्यकता के बिना आई जिन्हें यह कवर करता है।

ऑन-डिवाइस ML सीखने वाले किसी भी व्यक्ति के लिए, यह इस बात का एक उपयोगी उदाहरण है कि पैरामीटर काउंट अकेला एक भ्रामक हेडलाइन नंबर क्यों है। एक 20-बिलियन-पैरामीटर स्पार्स मॉडल जो 1 से 4 बिलियन पैरामीटर को सक्रिय करता है, इनफरेंस के समय कंप्यूट डिमांड के मामले में 1-से-4-बिलियन-पैरामीटर मॉडल की तरह व्यवहार करता है। स्पार्सिटी ही असली विशेषता है, न कि 20 बिलियन की संख्या। Apple दाँव लगा रहा है कि स्पार्स एक्टिवेशन उन्हें ऑन-डिवाइस एक गुणात्मक रूप से बेहतर मॉडल अनुभव भेजने देता है — बिना उस थर्मल और बैटरी लागत के जो एक पूरी तरह से डेंस 20-बिलियन-पैरामीटर मॉडल थोपता।

AI डिप्लॉयमेंट के बारे में आपकी सोच के लिए इसका क्या अर्थ है

Apple का पाँच-मॉडल आर्किटेक्चर टियर्ड इनफरेंस रणनीति का अधिकांश पाठ्यपुस्तकीय उदाहरणों से कहीं अधिक स्पष्ट चित्रण है। आपके पास व्यापक संगतता के लिए एक डेंस स्मॉल मॉडल है, सक्षम लोकल हार्डवेयर के लिए एक स्पार्स लार्ज मॉडल है, ऑन-डिवाइस क्षमता से परे के कार्यों के लिए Private Cloud Compute टियर्स हैं जो Apple के इंफ्रास्ट्रक्चर के भीतर रहते हैं, और सबसे माँग वाले अनुरोधों के लिए क्षमता सीढ़ी के शीर्ष पर एक Google-होस्टेड मॉडल है।

प्रत्येक टियर लेटेंसी, प्राइवेसी एक्सपोज़र, कंप्यूट लागत और क्षमता सीलिंग के बीच एक जानबूझकर किया गया ट्रेड-ऑफ दर्शाता है।

इसका व्यापक सबक, जो Apple के इकोसिस्टम से परे भी लागू होता है, यह है कि वर्टिकल इंटीग्रेशन की व्यावहारिक सीमाएँ होती हैं। यहाँ तक कि अपनी चिप्स, अपने ऑपरेटिंग सिस्टम और अपने क्लाउड इंफ्रास्ट्रक्चर वाली एक कंपनी ने भी यह निष्कर्ष निकाला कि उसके सबसे माँग वाले AI वर्कलोड के लिए क्षमता सीलिंग एक थर्ड-पार्टी क्लाउड प्रदाता द्वारा थर्ड-पार्टी हार्डवेयर पर बेहतर तरीके से पूरी होती है। यह रणनीति की विफलता नहीं है। यह इस बात की ईमानदार स्वीकृति है कि फ्रंटियर मॉडल इनफरेंस में असली कठिनाई कहाँ है।

अगर आप एक मल्टी-टियर AI सिस्टम डिज़ाइन कर रहे हैं — चाहे किसी मोबाइल ऐप के लिए, एंटरप्राइज़ टूल के लिए, या रिसर्च पाइपलाइन के लिए — Apple ने अभी-अभी रूटिंग लॉजिक के बारे में सोचने का एक काफी विस्तृत केस स्टडी प्रकाशित किया है। यह तथ्य कि यह Google के डेटा सेंटरों में Nvidia GPU पर चलता है, लगभग गौण है।

थर्ड-पार्टी Swift ऐप्स के लिए डेवलपर डॉक्युमेंटेशन पर नज़र रखें कि Foundation Models फ्रेमवर्क क्लाउड टियर्स को कितना एक्सपोज़ करता है — या नहीं करता। ऑन-डिवाइस API सर्फेस WWDC25 से उपलब्ध है। Apple डेवलपर्स के लिए सर्वर-साइड क्षमता का कितना हिस्सा खोलता है, यह तय करेगा कि इस स्टैक पर वास्तव में क्या बनाया जा सकता है।

स्रोत

प्रश्न और उत्तर

कुल पांच मॉडल: दो ऑन-डिवाइस मॉडल (AFM 3 Core और AFM 3 Core Advanced) और तीन सर्वर-आधारित मॉडल, जिनमें एक Google Cloud में Nvidia GPUs पर चलता है।