इस लेख में (4)
A 70-Billion Parameter LLM जो पूरी तरह Android Phone पर चलता है — Edge AI के बारे में हमारी सभी धारणाओं को चुनौती देता है
मुख्य बातें
- LiberaGPT का दावा है कि वह 24GB RAM वाले Android फोन पर 70B पैरामीटर मॉडल को पूरी तरह ऑफलाइन चलाता है, जो इस धारणा को चुनौती देता है कि फ्रंटियर-स्केल इनफरेंस के लिए क्लाउड इंफ्रास्ट्रक्चर आवश्यक है।
- क्वांटाइज़ेशन और प्रूनिंग वे प्रमुख तकनीकें हैं जो इसे संभव बनाती हैं; एज AI या प्राइवेसी-फर्स्ट एप्लिकेशन डिज़ाइन करने वाले किसी भी व्यक्ति के लिए इन्हें समझना आवश्यक है।
- यह दावा एक प्रेस रिलीज़ से आया है और स्वतंत्र सत्यापन की प्रतीक्षा में है; इसे एक ऐसी परिकल्पना के रूप में देखें जिस पर नज़र रखनी चाहिए, न कि एक स्थापित बेंचमार्क के रूप में।
LiberaGPT, जो 5N6 LTD द्वारा बनाया गया है, यह दावा करता है कि यह एक फ्रंटियर-स्तरीय मॉडल को उपभोक्ता हार्डवेयर पर पूरी तरह ऑफलाइन चला सकता है, और गोपनीयता-प्रथम AI तैनाती के लिए इसके निहितार्थों को गंभीरता से लेना उचित है।
LiberaGPT जो कि 5N6 LTD द्वारा बनाया गया है, यह दावा करता है कि यह एक फ्रंटियर-स्केल मॉडल को उपभोक्ता हार्डवेयर पर पूरी तरह ऑफलाइन चला सकता है, और प्राइवेसी-फर्स्ट AI डिप्लॉयमेंट के लिए इसके निहितार्थों को गंभीरता से लेना उचित है।
ML इंफ्रास्ट्रक्चर के जानकारों के बीच एक आम धारणा यह है कि 70-बिलियन पैरामीटर वाले मॉडल डेटा सेंटरों में चलते हैं, न कि जेब में रखे फोन पर। इनके लिए GPU के रैक, हाई-बैंडविड्थ मेमोरी इंटरकनेक्ट, और इतना बिजली का बजट चाहिए जो किसी छोटे नगर की बिजली व्यवस्था को भी शर्मिंदा कर दे। इसलिए जब 5N6 LTD नाम की एक छोटी ब्रिटिश सॉफ्टवेयर कंपनी ने 19 जून 2026 को यह घोषणा की कि उसका ऐप LiberaGPT एक बिना किसी बदलाव किए गए सामान्य Android हैंडसेट पर 70-बिलियन पैरामीटर का बड़ा लैंग्वेज मॉडल पूरी तरह ऑफलाइन चला सकता है, तो पहली स्वाभाविक प्रतिक्रिया संदेह करना ही है। उतनी ही स्वाभाविक अगली प्रतिक्रिया यह जानना है कि तकनीकी रूप से इस दावे का वास्तव में क्या अर्थ है, और ऑन-डिवाइस AI बनाने या सीखने वालों के लिए इसके क्या मायने हैं। गहराई में जाने से पहले एक संपादकीय टिप्पणी: यहाँ मुख्य स्रोत Barchart के माध्यम से वितरित एक प्रेस रिलीज़ है, जो पसंदीदा पत्रकारिता स्तर से नीचे है। तकनीकी दावा विशिष्ट और नामित है, लेकिन लिखते समय तक स्वतंत्र व्यावहारिक सत्यापन प्रकाशित नहीं हुआ है। इसे उसी नज़रिए से पढ़ें।
5N6 का असली दावा क्या है
Barchart द्वारा प्रकाशित घोषणा के अनुसार, 5N6 ने Android के लिए LiberaGPT को मोबाइल AI में एक मील का पत्थर बताया है — खास तौर पर यह संभव बनाने के लिए कि एक बिना किसी बदलाव किए गए सामान्य Android हैंडसेट पर 70 बिलियन पैरामीटर का बड़ा लैंग्वेज मॉडल पूरी तरह ऑफलाइन चलाया जा सके। ऐप को मुफ़्त और गोपनीयता-केंद्रित बताया गया है। घोषणा में जो मुख्य हार्डवेयर योग्यता बताई गई है, वह है 24GB RAM। यह स्पेसिफिकेशन अभी किसी दराज में पड़े ज़्यादातर फोन में नहीं मिलती; यह टारगेट डिवाइस को प्रीमियम फ्लैगशिप श्रेणी में रखती है। फिर भी, 24GB यूनिफाइड मेमोरी वाले फोन बाज़ार में उपलब्ध हैं और बिकते हैं, जिसका मतलब है कि यह दावा कम से कम भौतिक रूप से संभव है, न कि सिर्फ एक सपना।
पैरामीटर काउंट एक बेंचमार्क के रूप में इतना महत्वपूर्ण क्यों है, इसका कारण है संदर्भ। इस घोषणा से पहले, इस पैमाने के मॉडल डिफ़ॉल्ट रूप से क्लाउड इंफ्रास्ट्रक्चर से जुड़े थे। इसे स्थानीय रूप से चलाने का अर्थ है कि कोई भी प्रॉम्प्ट डिवाइस से बाहर नहीं जाता, कोई API कॉल लॉग नहीं होती, और कोई सब्सक्रिप्शन टोकन नहीं खर्च होता। गोपनीयता-संवेदनशील उपयोग के मामलों में, यह आर्किटेक्चर क्लाउड-निर्भर विकल्पों से वास्तव में अलग है।
70B मॉडल को फोन पर चलाना कठिन क्यों है (और यह कैसे होता है)
यह क्यों उल्लेखनीय है, यह समझने के लिए आपको ऑन-डिवाइस AI की मानक कार्यपद्धति समझनी होगी। arXiv (arxiv.org/html/2409.00088v1) पर प्रकाशित ऑन-डिवाइस लैंग्वेज मॉडल की व्यापक समीक्षा मूल तनाव को स्पष्ट रूप से सामने रखती है: संसाधन-सीमित डिवाइसों पर महंगे LLM तैनात करने के लिए quantization, pruning और knowledge distillation जैसी तकनीकों के ज़रिए प्रदर्शन और संसाधन उपयोग के बीच संतुलन बनाना पड़ता है।
यहाँ quantization सबसे बड़ी भूमिका निभाती है। पूर्ण 16-बिट फ्लोटिंग पॉइंट प्रिसिजन में 70B मॉडल के लिए लगभग 140GB मेमोरी की ज़रूरत होगी, जो फोन पर संभव नहीं है। आक्रामक quantization — वज़न को 4-बिट या 3-बिट तक घटाकर — उस फुटप्रिंट को नाटकीय रूप से संकुचित कर सकती है, संभावित रूप से उस सीमा तक जिसे 24GB वाला डिवाइस संभाल सके। तुलना के लिए, Hugging Face फोरम पर समुदाय की आम सलाह यह है कि एज डिवाइसों के लिए quantization के बाद अधिकतम सुरक्षित मॉडल आकार 7B पैरामीटर है, और विश्वसनीय प्रदर्शन के लिए 3B या उससे कम को प्राथमिकता दी जाती है। LiberaGPT का दावा किया गया 70B लक्ष्य इस आधारभूत सीमा से दस गुना अधिक है — और यही कारण है कि इस दावे पर ध्यान देना ज़रूरी है, न कि इसे नकार देना। अगर इंजीनियरिंग परीक्षण में खरी उतरती है, तो compression और runtime स्टैक में कुछ महत्वपूर्ण घटित हुआ है।
गोपनीयता आर्किटेक्चर का तर्क
5N6 ने जो फ्रेमिंग चुनी वह मुख्य रूप से प्रदर्शन बेंचमार्क के बारे में नहीं है; यह गोपनीयता के बारे में है। Barchart की प्रेस रिलीज़ LiberaGPT को स्पष्ट रूप से एक गोपनीयता-केंद्रित ऐप के रूप में प्रस्तुत करती है, और यह फ्रेमिंग वास्तविक आर्किटेक्चरल काम कर रही है।
जब inference पूरी तरह डिवाइस पर होती है, तो खतरे का मॉडल महत्वपूर्ण तरीकों से बदल जाता है। आपके प्रॉम्प्ट का कोई सर्वर लॉग नहीं होता। कोई थर्ड-पार्टी API नहीं होती जिसे सम्मन किया जा सके, हैक किया जा सके, या चुपचाप आपके प्रश्नों पर दोबारा प्रशिक्षित किया जा सके। पत्रकारों, स्वास्थ्य कर्मियों, कानूनी पेशेवरों, या कम कनेक्टिविटी वाले माहौल में संवेदनशील जानकारी संभालने वाले किसी भी व्यक्ति के लिए, यह एक ठोस और महत्वपूर्ण गुण है।
XDA Developers ने बिना इंटरनेट के फोन पर पूर्ण LLM चलाने के व्यापक परिदृश्य को कवर किया है, और एक व्यावहारिक लेख में नोट किया है कि अनुभव अपेक्षा से अधिक उपयोगी हो सकता है। ऑन-डिवाइस और क्लाउड मॉडल के बीच उपयोगिता का अंतर वास्तविक है लेकिन कम हो रहा है, और विशिष्ट ऑफलाइन या उच्च-गोपनीयता उपयोग के मामलों के लिए, frontier-scale पैरामीटर काउंट तक पहुँचने से पहले ही यह समझौता अनुकूल है।
एज AI सीखने वालों के लिए इसका क्या मतलब है
ML रिसर्च समुदाय ने एक अलग आर्किटेक्चरल दिशा पर काफी ऊर्जा लगाई है: छोटे उपकरणों पर बड़े मॉडल ठूँसने के बजाय मॉडल को छोटा और चतुर बनाना। Meta का MobileLLM पेपर, जो ICML 2024 में प्रस्तुत किया गया और arXiv पर उपलब्ध है, विशेष रूप से ऑन-डिवाइस उपयोग के लिए एक बिलियन से कम पैरामीटर वाले लैंग्वेज मॉडल को अनुकूलित करने पर केंद्रित था। यह एक वैध और अच्छी तरह से वित्त पोषित अनुसंधान दिशा है।
LiberaGPT का दृष्टिकोण, अगर सत्यापित हो, तो डिज़ाइन स्पेस के विपरीत छोर का प्रतिनिधित्व करता है: पैरामीटर काउंट ऊँचा रखो, और compression और runtime इंजीनियरिंग से जीत हासिल करो। अगर आप इस क्षेत्र में निर्माण कर रहे हैं तो दोनों दिशाएँ समझने योग्य हैं। एक बिलियन से कम का रास्ता डिवाइस सपोर्ट की व्यापकता और inference स्पीड के लिए अनुकूलित करता है। भारी-quantized बड़े-मॉडल का रास्ता सर्वोत्तम उपलब्ध उपभोक्ता हार्डवेयर पर क्षमता की ऊपरी सीमा के लिए अनुकूलित करता है। दोनों में से कोई गलत नहीं है; वे अलग-अलग बाधाओं के लिए काम करते हैं।
जो बदला है वह यह है कि फोन पर क्या संभव है इसकी ऊपरी सीमा काफी आगे बढ़ गई है, और यह सीमा परिवर्तन इस बात के लिए महत्वपूर्ण है कि आप भविष्य के प्रोजेक्ट का दायरा कैसे तय करते हैं।
सत्यापन यहाँ अगला अध्याय होगा। स्वतंत्र बेंचमार्क, मेमोरी प्रोफाइलिंग और generation-speed के आँकड़े इसे एक प्रेस रिलीज़ से एक ऐसे डेटा पॉइंट में बदल देंगे जिसे निर्माता वास्तव में उपयोग कर सकें। हार्डवेयर-केंद्रित आउटलेट्स से व्यावहारिक कवरेज और आदर्श रूप से ओपन-सोर्स समुदाय से पुनरुत्पादन योग्य आँकड़ों का इंतजार करें।
तब तक, अधिक टिकाऊ सबक पहले से ही सामने है: यह धारणा कि frontier-scale inference हमेशा के लिए क्लाउड इंफ्रास्ट्रक्चर से बँधी है, नियमित रूप से परखी जानी चाहिए — और किसी ने अभी-अभी यह परीक्षण एक Android फोन पर किया है।
आपकी जेब में रखा फोन डेटा सेंटर नहीं है। लेकिन जाहिर तौर पर, 24GB RAM और सही इंजीनियरिंग दिए जाने पर, वह इस बारे में अपनी राय रखने लगा है।
