क्या इसका मतलब यह है कि आपको कभी भी चिकित्सा या डोमेन-विशिष्ट कार्यों के लिए किसी मॉडल को फाइन-ट्यून नहीं करना चाहिए?

जरूरी नहीं। फाइन-ट्यूनिंग तब भी उचित है जब बेस मॉडल आपके लक्ष्य वितरण से परिचित न हो, जब आपको प्रतिबंधित आउटपुट फॉर्मेट की आवश्यकता हो, या जब डिप्लॉयमेंट आकार और लेटेंसी आवश्यकताएं एक छोटे मॉडल की मांग करती हों। अध्ययन का सबक यह है कि 'अधिक डोमेन प्रशिक्षण का अर्थ बेहतर प्रदर्शन है' को परखा जाना चाहिए, मान नहीं लिया जाना चाहिए — विशेष रूप से जब एक मजबूत फ्रंटियर मॉडल से शुरुआत हो।

नेचर मेडिसिन मूल्यांकन कैसे डिज़ाइन किया गया था?

अध्ययन में तीन फ्रंटियर सामान्य-उद्देश्य LLM और दो विशेषज्ञ क्लिनिकल AI प्लेटफॉर्म का उपयोग किया गया, जिन्हें चिकित्सा ज्ञान बेंचमार्क, चिकित्सक संरेखण कार्य और वास्तविक डी-आइडेंटिफाइड चिकित्सक प्रश्नों पर परखा गया। बारह अमेरिकी चिकित्सकों ने यादृच्छिक अंधे परिस्थितियों में आउटपुट का मूल्यांकन किया, जिसका अर्थ है कि मूल्यांकनकर्ताओं को पता नहीं था कि किस प्रणाली ने कौन सा उत्तर उत्पन्न किया।

1 / 1

नेचर मेडिसिन बड़े भाषा मॉडल क्लिनिकल AI फाइन-ट्यूनिंग चिकित्सा बेंचमार्क अनुप्रयुक्त मशीन लर्निंग breaking-news

Hallucination Free Jun 13, 2026

इस लेख में (4)

बड़े भाषा मॉडल का मूल्यांकन

सामान्य-उद्देश्य वाले LLM हर बेंचमार्क पर विशेष क्लिनिकल AI को पीछे छोड़ते हैं, और इससे आपको फाइन-ट्यूनिंग पर फिर से सोचना चाहिए

Q: इस परिणाम से संबंधित arXiv पेपर क्या है?

संबंधित प्रीप्रिंट arXiv:2512.01191 है, जिसका शीर्षक है 'Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks।' यह arXiv पर Computation and Language (cs.CL) के अंतर्गत सूचीबद्ध है।

मुख्य बातें

एक मजबूत फ्रंटियर सामान्य-उद्देश्य LLM को फाइन-ट्यूनिंग पाइपलाइन में निवेश करने से पहले अपने आधार रेखा के रूप में परखें; नेचर मेडिसिन अध्ययन से पता चलता है कि सामान्य मॉडल पहले से ही परीक्षण किए गए हर बेंचमार्क पर विशेष नैदानिक AI से बेहतर प्रदर्शन करते हैं।
फाइन-ट्यूनिंग अपनी लागत तब सार्थक करती है जब प्रतिबंधित आउटपुट फॉर्मेट, छोटे डिप्लॉयमेंट लक्ष्य, या ऑडिट योग्य प्रशिक्षण उत्पत्ति की आवश्यकता हो — न कि केवल उस डोमेन के बारे में 'अधिक जानने' के लिए जिसे आपका बेस मॉडल पहले से अच्छी तरह कवर करता है।
डोमेन विशेषज्ञों के साथ अंधे, बहु-कार्य मूल्यांकन वह मूल्यांकन डिज़ाइन है जिसे अपनाने योग्य है: एकल-संख्या बेंचमार्क उच्च-दांव वाले अनुप्रयोगों के लिए अपर्याप्त हैं, जैसा कि CSEDB जैसे उभरते ढांचे दर्शाते हैं।

अध्ययन में वास्तव …यह क्यों होता है: …इसका मतलब आप कैसे …अप्लाइड ML सीखने व…

Hallucination Free · Jun 13, 2026

एक Nature Medicine मूल्यांकन में पाया गया कि अग्रणी सामान्य-उद्देश्य मॉडल हर परीक्षित श्रेणी में समर्पित क्लिनिकल AI प्लेटफ़ॉर्म से बेहतर प्रदर्शन करते हैं, जो इस धारणा को चुनौती देता है कि डोमेन विशेषज्ञता हमेशा लाभकारी होती है।

एक Nature Medicine मूल्यांकन में पाया गया कि अग्रणी सामान्य-उद्देश्य मॉडल, हर परीक्षित श्रेणी में समर्पित क्लिनिकल AI प्लेटफ़ॉर्म से बेहतर प्रदर्शन करते हैं, जो इस धारणा को चुनौती देता है कि डोमेन विशेषज्ञता हमेशा फ़ायदेमंद होती है।

पिच डेक की कल्पना करें: एक क्लिनिकल AI स्टार्टअप, जो मेडिकल साहित्य पर आधारित है, विशेष रूप से डॉक्टरों के नोट्स और दवाओं के परस्पर प्रभाव पर प्रशिक्षित है, और लॉन्च से पहले असली डॉक्टरों द्वारा समीक्षा की गई है। इसके सामने रखें GPT-जो भी, वही मॉडल जो आपके चचेरे भाई कवर लेटर लिखने के लिए इस्तेमाल करते हैं। Nature Medicine में प्रकाशित एक पीयर-रिव्यूड मूल्यांकन के अनुसार, सामान्य-उद्देश्य वाला मॉडल जीत जाता है। थोड़े से नहीं। परीक्षण की गई हर श्रेणी में। यह या तो उन सभी के लिए एक बेहद असुविधाजनक परिणाम है जिन्होंने विशेष क्लिनिकल AI पर भारी पैसा लगाया, या फिर यह इस बारे में एक सच्चा स्पष्टीकरण है कि बड़े भाषा मॉडलों में क्षमता कैसे जमा होती है। शायद दोनों। यदि आप अप्लाइड ML सीख रहे हैं और यह तय करने की कोशिश कर रहे हैं कि कब फाइन-ट्यून करना है और कब बस एक फ्रंटियर मॉडल को प्रॉम्प्ट करना है, तो यह अध्ययन अनिवार्य पठन है। यहाँ सीख यह नहीं है कि "विशेषज्ञता बुरी है।" यह उससे कहीं अधिक सटीक और उपयोगी है।

अध्ययन में वास्तव में क्या किया गया

Nature Medicine का मूल्यांकन कोई सतही जाँच नहीं थी। अध्ययन की Digg समरी के अनुसार, शोधकर्ताओं ने तीन फ्रंटियर सामान्य-उद्देश्य LLM को दो समर्पित क्लिनिकल AI प्लेटफॉर्म के खिलाफ परखा — मेडिकल ज्ञान परीक्षणों, क्लिनिशियन संरेखण कार्यों, और वास्तविक डी-आइडेंटिफाइड फिजिशियन प्रश्नों में। निर्णायक पैनल में बारह अमेरिकी क्लिनिशियन थे जो एक रैंडमाइज्ड ब्लाइंडेड समीक्षा में काम कर रहे थे, यानी मूल्यांकनकर्ताओं को यह नहीं पता था कि कौन सा उत्तर किस प्रणाली ने दिया। सामान्य-उद्देश्य मॉडल हर श्रेणी में आगे रहे।

यह आखिरी बात महत्वपूर्ण है: अधिकांश श्रेणियों में नहीं, कुछ श्रेणियों में नहीं। हर श्रेणी में। अध्ययन पर Digg की रिपोर्टिंग के अनुसार, दो विशेष प्लेटफॉर्म OpenEvidence और UpToDate हैं, दोनों अच्छी तरह से मान्यता प्राप्त क्लिनिकल डिसीजन-सपोर्ट टूल हैं जिन्हें संस्थागत स्तर पर व्यापक रूप से अपनाया गया है। सामान्य-उद्देश्य मॉडल Google, OpenAI और Anthropic के हैं। तो तुलना सेब और संतरे की नहीं है; दोनों तरफ परिपक्व, गंभीर प्रणालियाँ हैं। परिणाम बस उस पक्ष के लिए असुविधाजनक निकला जिसने संकीर्ण रूप से अनुकूलन किया था।

यह क्यों होता है: स्केल विशेषज्ञता से प्रतिस्पर्धा करता है

यह सहज धारणा कि डोमेन-विशिष्ट फाइन-ट्यूनिंग हमेशा जीतती है, सतह पर उचित लगती है। यदि कोई मॉडल अधिक मेडिकल टेक्स्ट पर प्रशिक्षित होता है, तो उसे अधिक मेडिसिन जानना चाहिए, है ना? समस्या यह है कि यह तर्क तब बेहतर काम करता है जब आपका बेस मॉडल कमजोर हो। जब आपके बेस मॉडल ने मानवीय लिखित ज्ञान का एक विशाल हिस्सा प्रोसेस किया हो — जिसमें पर्याप्त मात्रा में मेडिकल ज्ञान भी शामिल हो — तब अतिरिक्त डोमेन प्रशिक्षण से मिलने वाला सीमांत लाभ, कैटास्ट्रोफिक फॉरगेटिंग और डिस्ट्रीब्यूशन शिफ्ट के जोखिम से प्रतिस्पर्धा करता है। आप फाइन-ट्यूनिंग करते-करते खुद को एक कोने में फँसा सकते हैं।

इस कार्य से संबंधित arXiv प्रीप्रिंट (arXiv:2512.01191) का शीर्षक है "Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks," जो पेपर शीर्षकों की दृष्टि से ताज़गी भरी सीधी बात है। यह व्यापक पैटर्न समीपवर्ती शोध में भी दिखता है। NIH की PMC-इंडेक्स्ड एक अध्ययन ने इतालवी राष्ट्रीय मेडिकल शिक्षा पथ में सामान्यवादी LLM के प्रदर्शन की जाँच की और इसी तरह की गतिशीलता पाई: सामान्य-उद्देश्य मॉडल डोमेन-ट्यून किए गए विकल्पों के साथ सार्थक रूप से प्रतिस्पर्धा कर रहे हैं। ELHS Institute के न्यूज़लेटर ने अपने अक्टूबर 2025 के अंक में विशेष-बनाम-सामान्य प्रश्न का विश्लेषण करते हुए इसे अन्य हालिया विशेष मॉडल कार्यों के संदर्भ में रखा, और नोट किया कि क्लिनिकल कार्यों पर मॉडल प्रकारों के बीच तुलनाएँ तेजी से संकीर्ण डोमेन प्रशिक्षण के बजाय व्यापकता को प्राथमिकता दे रही हैं।

इसका मतलब आप कैसे बनाते हैं इसके लिए क्या है

इसका यह मतलब नहीं है कि आपको कभी फाइन-ट्यून नहीं करना चाहिए। इसका मतलब यह है कि आपको इस बारे में स्पष्ट होना चाहिए कि फाइन-ट्यूनिंग वास्तव में कौन सी समस्या हल करती है। फाइन-ट्यूनिंग अपनी लागत तब उचित ठहराती है जब आपके बेस मॉडल में वास्तव में आपके लक्ष्य वितरण का एक्सपोज़र कम हो, जब आपको आउटपुट को एक नियंत्रित फॉर्मेट तक सीमित करना हो, जब लेटेंसी या डिप्लॉयमेंट बाधाएँ एक छोटे विशेष मॉडल को प्राथमिकता देती हों, या जब नियामक आवश्यकताएँ एक दस्तावेज़ीकृत, ऑडिट योग्य प्रशिक्षण उत्पत्ति वाले मॉडल की माँग करती हों।

ये वास्तविक कारण हैं। "हम चाहते हैं कि मॉडल अधिक मेडिसिन जाने" — यह तेजी से उनमें से एक नहीं रह गया है, कम से कम तब नहीं जब आपका शुरुआती बिंदु एक फ्रंटियर सामान्य मॉडल हो।

यहाँ मूल्यांकन पद्धति भी परिणाम से स्वतंत्र रूप से अध्ययन के योग्य है। बारह क्लिनिशियन, रैंडमाइज्ड असाइनमेंट, ब्लाइंडेड समीक्षा, वास्तविक डी-आइडेंटिफाइड फिजिशियन प्रश्नों सहित कई कार्य प्रकारों में परीक्षण: यह अधिकांश आंतरिक बेंचमार्क तुलनाओं की तुलना में अधिक कठोर सेटअप है जो आप उत्पाद घोषणाओं में देखेंगे। npj Digital Medicine जर्नल इन पंक्तियों में पूरक मूल्यांकन अवसंरचना विकसित कर रहा है; इसका Clinical Safety-Effectiveness Dual-Track Benchmark (CSEDB) सुरक्षा और प्रभावशीलता आयामों में 30 मेट्रिक्स को कवर करने वाला एक बहुआयामी ढाँचा बनाता है — यह स्वीकृति है कि उच्च-दांव वाले क्लिनिकल संदर्भों के लिए एकल-संख्या बेंचमार्क अपर्याप्त हैं।

अप्लाइड ML सीखने वालों के लिए व्यावहारिक निष्कर्ष

फाइन-ट्यूनिंग का प्रश्न अभी अप्लाइड ML में सबसे व्यावहारिक रूप से महत्वपूर्ण निर्णयों में से एक है, और इसका उत्तर अक्सर गलत तरीके से दिया जाता है — आमतौर पर "अधिक विशेषज्ञता बराबर बेहतर प्रदर्शन" पर डिफॉल्ट करके, यह जाँचे बिना कि क्या बेस मॉडल पहले से ही अंतर को पाट देता है।

Nature Medicine का परिणाम एक स्पष्ट, पीयर-रिव्यूड अनुस्मारक है कि इस धारणा को परखा जाना चाहिए, मान नहीं लिया जाना चाहिए।

डोमेन-विशिष्ट एप्लिकेशन बना रहे सीखने वालों के लिए: फाइन-ट्यूनिंग पाइपलाइन में निवेश करने से पहले, एक फ्रंटियर सामान्य मॉडल के साथ उचित बेसलाइन मूल्यांकन चलाएँ। जहाँ संभव हो ब्लाइंडेड मूल्यांकन का उपयोग करें। उस वास्तविक कार्य वितरण पर परीक्षण करें जिसकी आपको परवाह है, न कि किसी सुविधाजनक प्रॉक्सी पर। यदि सामान्य मॉडल पहले से ही अच्छा प्रदर्शन करता है, तो आपका इंजीनियरिंग समय लगभग निश्चित रूप से रिट्रीवल-ऑगमेंटेड जेनरेशन, प्रॉम्प्ट इंजीनियरिंग, आउटपुट वैलिडेशन, या डिप्लॉयमेंट इन्फ्रास्ट्रक्चर पर बेहतर खर्च होगा — जो वास्तव में यह निर्धारित करता है कि उपयोगकर्ता सिस्टम पर भरोसा करते हैं या नहीं।

OpenEvidence और UpToDate ने Nature Medicine में जो महँगा सबक दिया है, वह आपको मुफ्त में उपलब्ध है।

इस पर नज़र रखें: जैसे-जैसे CSEDB जैसे मूल्यांकन ढाँचे परिपक्व होते हैं, इस तरह के और तुलना अध्ययनों की उम्मीद करें। ट्रेंड लाइन जानकारीपूर्ण है, और अगले कुछ दौर के परिणाम यह स्पष्ट करने में बहुत मदद करेंगे कि विशेषज्ञता अभी भी कहाँ अपना महत्व बनाए रखती है।

प्रश्न और उत्तर

एक स्वतंत्र मूल्यांकन में Google, OpenAI और Anthropic के तीन फ्रंटियर सामान्य-उद्देश्य LLM को दो समर्पित क्लिनिकल AI प्लेटफॉर्म, OpenEvidence और UpToDate, के विरुद्ध परखा गया। बारह अमेरिकी चिकित्सकों ने यादृच्छिक अंधे समीक्षा में आउटपुट का मूल्यांकन किया, और सामान्य-उद्देश्य मॉडल हर परीक्षित श्रेणी में विजयी रहे: चिकित्सा ज्ञान परीक्षण, चिकित्सक संरेखण कार्य, और वास्तविक डी-आइडेंटिफाइड चिकित्सक प्रश्न।