
इस लेख में (4)
सामान्य-उद्देश्य वाले LLM हर बेंचमार्क पर विशेष क्लिनिकल AI को पीछे छोड़ते हैं, और इससे आपको फाइन-ट्यूनिंग पर फिर से सोचना चाहिए
मुख्य बातें
- एक मजबूत फ्रंटियर सामान्य-उद्देश्य LLM को फाइन-ट्यूनिंग पाइपलाइन में निवेश करने से पहले अपने आधार रेखा के रूप में परखें; नेचर मेडिसिन अध्ययन से पता चलता है कि सामान्य मॉडल पहले से ही परीक्षण किए गए हर बेंचमार्क पर विशेष नैदानिक AI से बेहतर प्रदर्शन करते हैं।
- फाइन-ट्यूनिंग अपनी लागत तब सार्थक करती है जब प्रतिबंधित आउटपुट फॉर्मेट, छोटे डिप्लॉयमेंट लक्ष्य, या ऑडिट योग्य प्रशिक्षण उत्पत्ति की आवश्यकता हो — न कि केवल उस डोमेन के बारे में 'अधिक जानने' के लिए जिसे आपका बेस मॉडल पहले से अच्छी तरह कवर करता है।
- डोमेन विशेषज्ञों के साथ अंधे, बहु-कार्य मूल्यांकन वह मूल्यांकन डिज़ाइन है जिसे अपनाने योग्य है: एकल-संख्या बेंचमार्क उच्च-दांव वाले अनुप्रयोगों के लिए अपर्याप्त हैं, जैसा कि CSEDB जैसे उभरते ढांचे दर्शाते हैं।
एक Nature Medicine मूल्यांकन में पाया गया कि अग्रणी सामान्य-उद्देश्य मॉडल हर परीक्षित श्रेणी में समर्पित क्लिनिकल AI प्लेटफ़ॉर्म से बेहतर प्रदर्शन करते हैं, जो इस धारणा को चुनौती देता है कि डोमेन विशेषज्ञता हमेशा लाभकारी होती है।
एक Nature Medicine मूल्यांकन में पाया गया कि अग्रणी सामान्य-उद्देश्य मॉडल, हर परीक्षित श्रेणी में समर्पित क्लिनिकल AI प्लेटफ़ॉर्म से बेहतर प्रदर्शन करते हैं, जो इस धारणा को चुनौती देता है कि डोमेन विशेषज्ञता हमेशा फ़ायदेमंद होती है।
पिच डेक की कल्पना करें: एक क्लिनिकल AI स्टार्टअप, जो मेडिकल साहित्य पर आधारित है, विशेष रूप से डॉक्टरों के नोट्स और दवाओं के परस्पर प्रभाव पर प्रशिक्षित है, और लॉन्च से पहले असली डॉक्टरों द्वारा समीक्षा की गई है। इसके सामने रखें GPT-जो भी, वही मॉडल जो आपके चचेरे भाई कवर लेटर लिखने के लिए इस्तेमाल करते हैं। Nature Medicine में प्रकाशित एक पीयर-रिव्यूड मूल्यांकन के अनुसार, सामान्य-उद्देश्य वाला मॉडल जीत जाता है। थोड़े से नहीं। परीक्षण की गई हर श्रेणी में। यह या तो उन सभी के लिए एक बेहद असुविधाजनक परिणाम है जिन्होंने विशेष क्लिनिकल AI पर भारी पैसा लगाया, या फिर यह इस बारे में एक सच्चा स्पष्टीकरण है कि बड़े भाषा मॉडलों में क्षमता कैसे जमा होती है। शायद दोनों। यदि आप अप्लाइड ML सीख रहे हैं और यह तय करने की कोशिश कर रहे हैं कि कब फाइन-ट्यून करना है और कब बस एक फ्रंटियर मॉडल को प्रॉम्प्ट करना है, तो यह अध्ययन अनिवार्य पठन है। यहाँ सीख यह नहीं है कि "विशेषज्ञता बुरी है।" यह उससे कहीं अधिक सटीक और उपयोगी है।
अध्ययन में वास्तव में क्या किया गया
Nature Medicine का मूल्यांकन कोई सतही जाँच नहीं थी। अध्ययन की Digg समरी के अनुसार, शोधकर्ताओं ने तीन फ्रंटियर सामान्य-उद्देश्य LLM को दो समर्पित क्लिनिकल AI प्लेटफॉर्म के खिलाफ परखा — मेडिकल ज्ञान परीक्षणों, क्लिनिशियन संरेखण कार्यों, और वास्तविक डी-आइडेंटिफाइड फिजिशियन प्रश्नों में। निर्णायक पैनल में बारह अमेरिकी क्लिनिशियन थे जो एक रैंडमाइज्ड ब्लाइंडेड समीक्षा में काम कर रहे थे, यानी मूल्यांकनकर्ताओं को यह नहीं पता था कि कौन सा उत्तर किस प्रणाली ने दिया। सामान्य-उद्देश्य मॉडल हर श्रेणी में आगे रहे।
यह आखिरी बात महत्वपूर्ण है: अधिकांश श्रेणियों में नहीं, कुछ श्रेणियों में नहीं। हर श्रेणी में। अध्ययन पर Digg की रिपोर्टिंग के अनुसार, दो विशेष प्लेटफॉर्म OpenEvidence और UpToDate हैं, दोनों अच्छी तरह से मान्यता प्राप्त क्लिनिकल डिसीजन-सपोर्ट टूल हैं जिन्हें संस्थागत स्तर पर व्यापक रूप से अपनाया गया है। सामान्य-उद्देश्य मॉडल Google, OpenAI और Anthropic के हैं। तो तुलना सेब और संतरे की नहीं है; दोनों तरफ परिपक्व, गंभीर प्रणालियाँ हैं। परिणाम बस उस पक्ष के लिए असुविधाजनक निकला जिसने संकीर्ण रूप से अनुकूलन किया था।
यह क्यों होता है: स्केल विशेषज्ञता से प्रतिस्पर्धा करता है
यह सहज धारणा कि डोमेन-विशिष्ट फाइन-ट्यूनिंग हमेशा जीतती है, सतह पर उचित लगती है। यदि कोई मॉडल अधिक मेडिकल टेक्स्ट पर प्रशिक्षित होता है, तो उसे अधिक मेडिसिन जानना चाहिए, है ना? समस्या यह है कि यह तर्क तब बेहतर काम करता है जब आपका बेस मॉडल कमजोर हो। जब आपके बेस मॉडल ने मानवीय लिखित ज्ञान का एक विशाल हिस्सा प्रोसेस किया हो — जिसमें पर्याप्त मात्रा में मेडिकल ज्ञान भी शामिल हो — तब अतिरिक्त डोमेन प्रशिक्षण से मिलने वाला सीमांत लाभ, कैटास्ट्रोफिक फॉरगेटिंग और डिस्ट्रीब्यूशन शिफ्ट के जोखिम से प्रतिस्पर्धा करता है। आप फाइन-ट्यूनिंग करते-करते खुद को एक कोने में फँसा सकते हैं।
इस कार्य से संबंधित arXiv प्रीप्रिंट (arXiv:2512.01191) का शीर्षक है "Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks," जो पेपर शीर्षकों की दृष्टि से ताज़गी भरी सीधी बात है। यह व्यापक पैटर्न समीपवर्ती शोध में भी दिखता है। NIH की PMC-इंडेक्स्ड एक अध्ययन ने इतालवी राष्ट्रीय मेडिकल शिक्षा पथ में सामान्यवादी LLM के प्रदर्शन की जाँच की और इसी तरह की गतिशीलता पाई: सामान्य-उद्देश्य मॉडल डोमेन-ट्यून किए गए विकल्पों के साथ सार्थक रूप से प्रतिस्पर्धा कर रहे हैं। ELHS Institute के न्यूज़लेटर ने अपने अक्टूबर 2025 के अंक में विशेष-बनाम-सामान्य प्रश्न का विश्लेषण करते हुए इसे अन्य हालिया विशेष मॉडल कार्यों के संदर्भ में रखा, और नोट किया कि क्लिनिकल कार्यों पर मॉडल प्रकारों के बीच तुलनाएँ तेजी से संकीर्ण डोमेन प्रशिक्षण के बजाय व्यापकता को प्राथमिकता दे रही हैं।
इसका मतलब आप कैसे बनाते हैं इसके लिए क्या है
इसका यह मतलब नहीं है कि आपको कभी फाइन-ट्यून नहीं करना चाहिए। इसका मतलब यह है कि आपको इस बारे में स्पष्ट होना चाहिए कि फाइन-ट्यूनिंग वास्तव में कौन सी समस्या हल करती है। फाइन-ट्यूनिंग अपनी लागत तब उचित ठहराती है जब आपके बेस मॉडल में वास्तव में आपके लक्ष्य वितरण का एक्सपोज़र कम हो, जब आपको आउटपुट को एक नियंत्रित फॉर्मेट तक सीमित करना हो, जब लेटेंसी या डिप्लॉयमेंट बाधाएँ एक छोटे विशेष मॉडल को प्राथमिकता देती हों, या जब नियामक आवश्यकताएँ एक दस्तावेज़ीकृत, ऑडिट योग्य प्रशिक्षण उत्पत्ति वाले मॉडल की माँग करती हों।
ये वास्तविक कारण हैं। "हम चाहते हैं कि मॉडल अधिक मेडिसिन जाने" — यह तेजी से उनमें से एक नहीं रह गया है, कम से कम तब नहीं जब आपका शुरुआती बिंदु एक फ्रंटियर सामान्य मॉडल हो।
यहाँ मूल्यांकन पद्धति भी परिणाम से स्वतंत्र रूप से अध्ययन के योग्य है। बारह क्लिनिशियन, रैंडमाइज्ड असाइनमेंट, ब्लाइंडेड समीक्षा, वास्तविक डी-आइडेंटिफाइड फिजिशियन प्रश्नों सहित कई कार्य प्रकारों में परीक्षण: यह अधिकांश आंतरिक बेंचमार्क तुलनाओं की तुलना में अधिक कठोर सेटअप है जो आप उत्पाद घोषणाओं में देखेंगे। npj Digital Medicine जर्नल इन पंक्तियों में पूरक मूल्यांकन अवसंरचना विकसित कर रहा है; इसका Clinical Safety-Effectiveness Dual-Track Benchmark (CSEDB) सुरक्षा और प्रभावशीलता आयामों में 30 मेट्रिक्स को कवर करने वाला एक बहुआयामी ढाँचा बनाता है — यह स्वीकृति है कि उच्च-दांव वाले क्लिनिकल संदर्भों के लिए एकल-संख्या बेंचमार्क अपर्याप्त हैं।
अप्लाइड ML सीखने वालों के लिए व्यावहारिक निष्कर्ष
फाइन-ट्यूनिंग का प्रश्न अभी अप्लाइड ML में सबसे व्यावहारिक रूप से महत्वपूर्ण निर्णयों में से एक है, और इसका उत्तर अक्सर गलत तरीके से दिया जाता है — आमतौर पर "अधिक विशेषज्ञता बराबर बेहतर प्रदर्शन" पर डिफॉल्ट करके, यह जाँचे बिना कि क्या बेस मॉडल पहले से ही अंतर को पाट देता है।
Nature Medicine का परिणाम एक स्पष्ट, पीयर-रिव्यूड अनुस्मारक है कि इस धारणा को परखा जाना चाहिए, मान नहीं लिया जाना चाहिए।
डोमेन-विशिष्ट एप्लिकेशन बना रहे सीखने वालों के लिए: फाइन-ट्यूनिंग पाइपलाइन में निवेश करने से पहले, एक फ्रंटियर सामान्य मॉडल के साथ उचित बेसलाइन मूल्यांकन चलाएँ। जहाँ संभव हो ब्लाइंडेड मूल्यांकन का उपयोग करें। उस वास्तविक कार्य वितरण पर परीक्षण करें जिसकी आपको परवाह है, न कि किसी सुविधाजनक प्रॉक्सी पर। यदि सामान्य मॉडल पहले से ही अच्छा प्रदर्शन करता है, तो आपका इंजीनियरिंग समय लगभग निश्चित रूप से रिट्रीवल-ऑगमेंटेड जेनरेशन, प्रॉम्प्ट इंजीनियरिंग, आउटपुट वैलिडेशन, या डिप्लॉयमेंट इन्फ्रास्ट्रक्चर पर बेहतर खर्च होगा — जो वास्तव में यह निर्धारित करता है कि उपयोगकर्ता सिस्टम पर भरोसा करते हैं या नहीं।
OpenEvidence और UpToDate ने Nature Medicine में जो महँगा सबक दिया है, वह आपको मुफ्त में उपलब्ध है।
इस पर नज़र रखें: जैसे-जैसे CSEDB जैसे मूल्यांकन ढाँचे परिपक्व होते हैं, इस तरह के और तुलना अध्ययनों की उम्मीद करें। ट्रेंड लाइन जानकारीपूर्ण है, और अगले कुछ दौर के परिणाम यह स्पष्ट करने में बहुत मदद करेंगे कि विशेषज्ञता अभी भी कहाँ अपना महत्व बनाए रखती है।