BRIDGE ने कितने LLMs का मूल्यांकन किया है?

Nature Biomedical Engineering के प्रकाशन ने 87 कार्यों में 95 LLMs का मूल्यांकन किया। Hugging Face पर लाइव लीडरबोर्ड अपने सबसे हाल के दस्तावेज़ीकृत अपडेट तक 107 मॉडलों का मूल्यांकन कर चुका था।

मानक मेडिकल AI बेंचमार्क वास्तविक दुनिया के क्लिनिकल प्रदर्शन की भविष्यवाणी करने में क्यों विफल रहते हैं?

अधिकांश मौजूदा बेंचमार्क मेडिकल परीक्षा प्रश्नों या PubMed सार का उपयोग करते हैं, जो स्वच्छ और संरचित होते हैं। वास्तविक क्लिनिकल नोट्स में संक्षिप्ताक्षर, असंगत स्वरूपण और अंतर्निहित तर्क होते हैं जिन्हें वे बेंचमार्क कभी नहीं परखते — यह अंतर PubMed Central पर प्रकाशित एक व्यवस्थित समीक्षा में 39 बेंचमार्क में दर्ज किया गया है।

मैं BRIDGE लीडरबोर्ड कहाँ देख सकता हूँ?

BRIDGE लीडरबोर्ड Hugging Face पर YLab-Open/BRIDGE-Medical-Leaderboard स्पेस पर सार्वजनिक रूप से उपलब्ध है, जहाँ आप विशिष्ट कार्य प्रकारों और भाषाओं में मॉडल प्रदर्शन की तुलना कर सकते हैं।

1 / 1

BRIDGE बेंचमार्क क्लिनिकल NLP हेल्थकेयर AI लार्ज लैंग्वेज मॉडल इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड Nature Biomedical Engineering LLM मूल्यांकन breaking-news

Hallucination Free Jun 18, 2026

इस लेख में (4)

आपके मॉडल ने मेडिकल परीक्षा पास कर ली। BRIDGE ने अभी उसे एक असली चार्ट पढ़ने को कहा।

मुख्य बातें

मेडिकल परीक्षा बेंचमार्क पर मजबूत स्कोर यह विश्वसनीय रूप से नहीं बताते कि एक LLM वास्तविक EHR टेक्स्ट पर कैसा प्रदर्शन करेगा; BRIDGE 87 क्लिनिकल कार्यों में इस अंतर को सीधे परखता है।
Hugging Face पर BRIDGE लीडरबोर्ड सार्वजनिक और लाइव है, जो बिल्डरों को तैनाती से पहले बहुभाषी, वास्तविक दुनिया के क्लिनिकल टेक्स्ट पर मॉडलों की तुलना करने का एक व्यावहारिक उपकरण देता है।
39 क्लिनिकल LLM बेंचमार्क की एक व्यवस्थित समीक्षा में बार-बार वही ज्ञान-व्यवहार प्रदर्शन अंतर पाया गया; BRIDGE इसे मापने के लिए अब तक का सबसे व्यापक साधन है।

वह बेंचमार्क समस्य…BRIDGE वास्तव में …EHR टेक्स्ट एक अलग…बिल्डर्स और मूल्या…

Hallucination Free · Jun 18, 2026

एक नया Nature Biomedical Engineering बेंचमार्क वास्तविक EHR टेक्स्ट पर फ्रंटियर LLMs को परखता है, और इसके परिणाम हर किसी के healthcare AI मूल्यांकन के तरीके को नए सिरे से परिभाषित कर सकते हैं।

एक नया Nature Biomedical Engineering बेंचमार्क, वास्तविक EHR टेक्स्ट पर अग्रणी LLMs का परीक्षण करता है, और इसके परिणाम यह बदल सकते हैं कि कोई भी हेल्थकेयर AI का मूल्यांकन कैसे करता है।

अब तक लगभग हर क्लिनिशियन ने एक AI डेमो का कोई न कोई संस्करण ज़रूर देखा होगा: एक फ्रंटियर मॉडल किसी मेडिकल केस को स्टेप-बाय-स्टेप हल करता है, सही डायग्नोसिस देता है, गाइडलाइन का हवाला देता है, और दर्शक प्रभावित हो जाते हैं। डेमो असली होता है। लेकिन वह केस असली नहीं होता। असली क्लिनिकल टेक्स्ट किसी मल्टीपल-चॉइस प्रश्न जैसा बिल्कुल नहीं दिखता। वह रात 2 बजे किसी रेज़िडेंट द्वारा टाइप किए गए इमरजेंसी डिपार्टमेंट नोट जैसा दिखता है, जिसमें हर चीज़ को संक्षिप्त किया गया हो, एक ही पैराग्राफ में शॉर्टहैंड और पूरे वाक्य मिले-जुले हों, और कभी-कभी एक ही रिकॉर्ड में तीन अलग-अलग तरीकों से तारीख लिखी गई हो। BRIDGE को उस दूसरे दस्तावेज़ पर मॉडलों को परखने के लिए बनाया गया था, न कि पहले पर।

वह बेंचमार्क समस्या जिस पर कोई बात नहीं करना चाहता था

हेल्थकेयर में अधिकांश LLM मूल्यांकन दो स्रोतों पर निर्भर रहे हैं: मेडिकल लाइसेंसिंग परीक्षा के प्रश्न और PubMed के एब्स्ट्रैक्ट। दोनों साफ-सुथरे, सुव्यवस्थित और पढ़ने के लिए लिखे गए हैं। Nature Biomedical Engineering में प्रकाशित BRIDGE पेपर के अनुसार, यही असली समस्या है — मौजूदा बेंचमार्क "मेडिकल परीक्षा-शैली के प्रश्नों या PubMed से लिए गए टेक्स्ट पर निर्भर हैं, और वे वास्तविक इलेक्ट्रॉनिक हेल्थ रिकॉर्ड डेटा की जटिलता को पकड़ने में असफल हैं।"

यह संरचनात्मक खामी डेटा की सफाई से कहीं गहरी है। David Talby, जिन्होंने सीधे दो क्लिनिकल AI डिप्लॉयमेंट पर काम किया, ने इसे सीधे शब्दों में कहा: "GPT-4 मेडिकल परीक्षा पास करता है" यह कहने का शॉर्टकट बन गया कि "GPT-4 क्लिनिकल टेक्स्ट के लिए तैयार है," और इन दोनों दावों का एक-दूसरे से लगभग कोई संबंध नहीं है। एक बंद किताब का मल्टीपल-चॉइस टेस्ट है। दूसरा एक लाइव पाइपलाइन है जो दर्जनों स्पेशलिटी के नोट्स को, कई भाषाओं में, समय के दबाव में प्रोसेस करती है।

PubMed Central पर प्रकाशित 39 क्लिनिकल LLM बेंचमार्क की एक व्यापक व्यवस्थित समीक्षा ने इसे "नॉलेज-प्रैक्टिस परफॉर्मेंस गैप" नाम दिया — यह लगातार सामने आने वाला निष्कर्ष कि मेडिकल नॉलेज प्रश्नों पर बेंचमार्क स्कोर, क्लिनिकल प्रैक्टिस कार्यों में प्रदर्शन का भरोसेमंद अनुमान नहीं देते। उस समीक्षा ने 39 अलग-अलग बेंचमार्क की जांच की और हर बार एक ही निष्कर्ष पर पहुंची: लीडरबोर्ड का नंबर और डिप्लॉयमेंट की वास्तविकता — दोनों अलग-अलग चीज़ें माप रहे हैं। BRIDGE को विशेष रूप से इसी अंतर को पाटने के लिए डिज़ाइन किया गया था।

BRIDGE वास्तव में क्या मापता है

BRIDGE, जिसे Harvard Medical School, Mass General Brigham, Broad Institute और YLab की सहभागिता से विकसित किया गया है, Hugging Face पर BRIDGE लीडरबोर्ड दस्तावेज़ीकरण के अनुसार, वास्तविक EHR डेटा से लिए गए 87 कार्यों वाला एक बहुभाषी बेंचमार्क है। यह बेंचमार्क कई भाषाओं, क्लिनिकल स्पेशलिटी और कार्य प्रकारों को कवर करता है — named entity recognition से लेकर मरीज़ की टाइमलाइन पर क्लिनिकल रीज़निंग तक सब कुछ।

Mass General Brigham की प्रेस रिलीज़ इसके उद्देश्य को "रोज़मर्रा की मरीज़ देखभाल" टेक्स्ट पर AI प्रदर्शन का मूल्यांकन करने के रूप में बताती है — न कि आदर्श परिदृश्यों पर — जो अधिकांश बेंचमार्क लॉन्च की तुलना में कहीं अधिक ईमानदार प्रस्तुति है।

मूल arXiv प्रीप्रिंट के बाद से मूल्यांकन का दायरा बढ़ चुका है। Nature Biomedical Engineering प्रकाशन ने उन 87 कार्यों में 95 LLMs का मूल्यांकन किया, और लीडरबोर्ड दस्तावेज़ीकरण के अनुसार, Hugging Face पर लाइव लीडरबोर्ड अपने सबसे हालिया अपडेट तक 107 मॉडलों के मूल्यांकन तक पहुंच गया था। यह व्यापकता मायने रखती है: वास्तविक क्लिनिकल टेक्स्ट पर 87 कार्यों में 107 मॉडलों की तुलना करने से आपको 50 USMLE प्रश्नों पर पांच मॉडलों की तुलना से बिल्कुल अलग संकेत मिलता है।

EHR टेक्स्ट एक अलग ही दुनिया क्यों है

मानक बेंचमार्क इस अंतर को क्यों चूक जाते हैं, यह कोई रहस्य नहीं है — यह संरचनात्मक कारण है। क्लिनिकल नोट्स में संस्थान-दर-संस्थान बदलते संक्षिप्तीकरण सेट, असंगत फ़ॉर्मेटिंग, अंतर्निहित टेम्पोरल रीज़निंग ("पिछले मंगलवार से लक्षण बिगड़ रहे हैं" — इसके लिए जानना होगा कि नोट की तारीख के सापेक्ष मंगलवार कब था), और बहुभाषी आबादी की सेवा करने वाले स्वास्थ्य प्रणालियों में क्रॉस-लिंगुअल जटिलता शामिल होती है।

Nature Biomedical Engineering में BRIDGE पेपर के अनुसार, बेंचमार्क को विशेष रूप से मॉडलों, भाषाओं, कार्यों और स्पेशलिटी में प्रदर्शन अंतर पकड़ने के लिए डिज़ाइन किया गया था — ऐसे आयाम जिन्हें परीक्षा-शैली बेंचमार्क एक ही सटीकता स्कोर में समेट देते हैं।

Talby का दो विशिष्ट डिप्लॉयमेंट विफलताओं का विश्लेषण — एक FDA Sentinel कार्यक्रम के लिए opioid प्रगति नोट्स से adverse-event निष्कर्षण से जुड़ी, और दूसरी मरीज़ की टाइमलाइन पर drug-causality रीज़निंग से जुड़ी — व्यवहार में इस अंतर को दर्शाता है। दोनों मामलों में, मानक मूल्यांकन पर अच्छा प्रदर्शन करने वाले मॉडल वास्तविक क्लिनिकल टेक्स्ट पाइपलाइन पर संघर्ष करते रहे। बेंचमार्क स्कोर ने आत्मविश्वास का अनुमान लगाया था; डिप्लॉयमेंट ने उस आत्मविश्वास की सीमाएं उजागर कर दीं। ये ठीक वही विफलता के तरीके हैं जिन्हें BRIDGE किसी सिस्टम के मरीज़ रिकॉर्ड के पास जाने से पहले दृश्यमान बनाने के लिए डिज़ाइन किया गया था।

बिल्डर्स और मूल्यांकनकर्ताओं के लिए इसका क्या मतलब है

यदि आप कोई ऐसा AI सिस्टम बना या मूल्यांकन कर रहे हैं जो क्लिनिकल टेक्स्ट को छुएगा, तो BRIDGE आपको सामान्य मूल्यांकन नाटक का एक ठोस विकल्प देता है। लीडरबोर्ड Hugging Face पर लाइव और सार्वजनिक है, जिसका अर्थ है कि आप किसी एकल कुल स्कोर पर निर्भर रहने के बजाय विशिष्ट कार्य प्रकारों में विशिष्ट मॉडलों के प्रदर्शन की तुलना कर सकते हैं। बहुभाषी दायरा भी उल्लेखनीय है: यदि आपके डिप्लॉयमेंट वातावरण में गैर-अंग्रेज़ी क्लिनिकल टेक्स्ट शामिल है, तो केवल अंग्रेज़ी USMLE प्रश्नों को स्कोर करने वाला बेंचमार्क आपको लगभग कुछ भी उपयोगी नहीं बता रहा।

यहां की व्यापक सीख हेल्थकेयर से बहुत आगे तक जाती है। हर डोमेन में इस समस्या का अपना संस्करण होता है — वह साफ-सुथरा बेंचमार्क जो असली कार्य के बजाय उसके प्रॉक्सी को मापता है। क्लिनिकल NLP में बस यह हुआ कि उस बेमेल की कीमत इतनी अधिक थी कि शोधकर्ताओं ने अंततः एक ऐसा बेंचमार्क बनाया जो इसे उजागर करने के लिए पर्याप्त कठोर हो। PubMed Central पर Knowledge-Practice Performance Gap समीक्षा ने 39 अलग-अलग मूल्यांकनों में यही पैटर्न पाया; BRIDGE इस अंतर को सीधे मापने का अब तक का सबसे व्यापक प्रयास है।

उच्च-दांव वाली सेटिंग में AI तैनात करने के बारे में गंभीर किसी भी व्यक्ति के लिए, यह समझना कि आपका मॉडल BRIDGE-शैली के मूल्यांकन पर कैसा प्रदर्शन करता है, अब एक वैकल्पिक सुविधा नहीं, बल्कि न्यूनतम आवश्यकता है। BRIDGE लीडरबोर्ड नए मॉडल सबमिट होते रहने के साथ अपडेट होता रहेगा, जिसका अर्थ है कि तुलना का समूह समय के साथ और समृद्ध होता जाएगा। विशेष रूप से बहुभाषी कार्यों में domain-specific fine-tuned मॉडल और frontier general-purpose मॉडलों के सापेक्ष प्रदर्शन पर नज़र रखें — वहीं सबसे शिक्षाप्रद प्रदर्शन अंतर उभरने की सबसे अधिक संभावना है।

जो मॉडल परीक्षा में अव्वल आता है और चार्ट नोट में लड़खड़ा जाता है, वह क्लिनिकल AI टूल नहीं है। वह एक बहुत महंगा स्टडी पार्टनर है।

स्रोत

प्रश्न और उत्तर

BRIDGE एक बहुभाषी बेंचमार्क है जो क्लिनिकल टेक्स्ट समझ के लिए विकसित किया गया है, जिसमें हार्वर्ड मेडिकल स्कूल, मास जनरल ब्रिघम, ब्रॉड इंस्टीट्यूट और YLab की भागीदारी है। इसमें वास्तविक इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड डेटा से लिए गए 87 कार्य शामिल हैं और इसे Nature Biomedical Engineering में प्रकाशित किया गया था।