
इस लेख में (4)
आपके मॉडल ने मेडिकल परीक्षा पास कर ली। BRIDGE ने अभी उसे एक असली चार्ट पढ़ने को कहा।
मुख्य बातें
- मेडिकल परीक्षा बेंचमार्क पर मजबूत स्कोर यह विश्वसनीय रूप से नहीं बताते कि एक LLM वास्तविक EHR टेक्स्ट पर कैसा प्रदर्शन करेगा; BRIDGE 87 क्लिनिकल कार्यों में इस अंतर को सीधे परखता है।
- Hugging Face पर BRIDGE लीडरबोर्ड सार्वजनिक और लाइव है, जो बिल्डरों को तैनाती से पहले बहुभाषी, वास्तविक दुनिया के क्लिनिकल टेक्स्ट पर मॉडलों की तुलना करने का एक व्यावहारिक उपकरण देता है।
- 39 क्लिनिकल LLM बेंचमार्क की एक व्यवस्थित समीक्षा में बार-बार वही ज्ञान-व्यवहार प्रदर्शन अंतर पाया गया; BRIDGE इसे मापने के लिए अब तक का सबसे व्यापक साधन है।
एक नया Nature Biomedical Engineering बेंचमार्क वास्तविक EHR टेक्स्ट पर फ्रंटियर LLMs को परखता है, और इसके परिणाम हर किसी के healthcare AI मूल्यांकन के तरीके को नए सिरे से परिभाषित कर सकते हैं।
एक नया Nature Biomedical Engineering बेंचमार्क, वास्तविक EHR टेक्स्ट पर अग्रणी LLMs का परीक्षण करता है, और इसके परिणाम यह बदल सकते हैं कि कोई भी हेल्थकेयर AI का मूल्यांकन कैसे करता है।
अब तक लगभग हर क्लिनिशियन ने एक AI डेमो का कोई न कोई संस्करण ज़रूर देखा होगा: एक फ्रंटियर मॉडल किसी मेडिकल केस को स्टेप-बाय-स्टेप हल करता है, सही डायग्नोसिस देता है, गाइडलाइन का हवाला देता है, और दर्शक प्रभावित हो जाते हैं। डेमो असली होता है। लेकिन वह केस असली नहीं होता। असली क्लिनिकल टेक्स्ट किसी मल्टीपल-चॉइस प्रश्न जैसा बिल्कुल नहीं दिखता। वह रात 2 बजे किसी रेज़िडेंट द्वारा टाइप किए गए इमरजेंसी डिपार्टमेंट नोट जैसा दिखता है, जिसमें हर चीज़ को संक्षिप्त किया गया हो, एक ही पैराग्राफ में शॉर्टहैंड और पूरे वाक्य मिले-जुले हों, और कभी-कभी एक ही रिकॉर्ड में तीन अलग-अलग तरीकों से तारीख लिखी गई हो। BRIDGE को उस दूसरे दस्तावेज़ पर मॉडलों को परखने के लिए बनाया गया था, न कि पहले पर।
वह बेंचमार्क समस्या जिस पर कोई बात नहीं करना चाहता था
हेल्थकेयर में अधिकांश LLM मूल्यांकन दो स्रोतों पर निर्भर रहे हैं: मेडिकल लाइसेंसिंग परीक्षा के प्रश्न और PubMed के एब्स्ट्रैक्ट। दोनों साफ-सुथरे, सुव्यवस्थित और पढ़ने के लिए लिखे गए हैं। Nature Biomedical Engineering में प्रकाशित BRIDGE पेपर के अनुसार, यही असली समस्या है — मौजूदा बेंचमार्क "मेडिकल परीक्षा-शैली के प्रश्नों या PubMed से लिए गए टेक्स्ट पर निर्भर हैं, और वे वास्तविक इलेक्ट्रॉनिक हेल्थ रिकॉर्ड डेटा की जटिलता को पकड़ने में असफल हैं।"
यह संरचनात्मक खामी डेटा की सफाई से कहीं गहरी है। David Talby, जिन्होंने सीधे दो क्लिनिकल AI डिप्लॉयमेंट पर काम किया, ने इसे सीधे शब्दों में कहा: "GPT-4 मेडिकल परीक्षा पास करता है" यह कहने का शॉर्टकट बन गया कि "GPT-4 क्लिनिकल टेक्स्ट के लिए तैयार है," और इन दोनों दावों का एक-दूसरे से लगभग कोई संबंध नहीं है। एक बंद किताब का मल्टीपल-चॉइस टेस्ट है। दूसरा एक लाइव पाइपलाइन है जो दर्जनों स्पेशलिटी के नोट्स को, कई भाषाओं में, समय के दबाव में प्रोसेस करती है।
PubMed Central पर प्रकाशित 39 क्लिनिकल LLM बेंचमार्क की एक व्यापक व्यवस्थित समीक्षा ने इसे "नॉलेज-प्रैक्टिस परफॉर्मेंस गैप" नाम दिया — यह लगातार सामने आने वाला निष्कर्ष कि मेडिकल नॉलेज प्रश्नों पर बेंचमार्क स्कोर, क्लिनिकल प्रैक्टिस कार्यों में प्रदर्शन का भरोसेमंद अनुमान नहीं देते। उस समीक्षा ने 39 अलग-अलग बेंचमार्क की जांच की और हर बार एक ही निष्कर्ष पर पहुंची: लीडरबोर्ड का नंबर और डिप्लॉयमेंट की वास्तविकता — दोनों अलग-अलग चीज़ें माप रहे हैं। BRIDGE को विशेष रूप से इसी अंतर को पाटने के लिए डिज़ाइन किया गया था।
BRIDGE वास्तव में क्या मापता है
BRIDGE, जिसे Harvard Medical School, Mass General Brigham, Broad Institute और YLab की सहभागिता से विकसित किया गया है, Hugging Face पर BRIDGE लीडरबोर्ड दस्तावेज़ीकरण के अनुसार, वास्तविक EHR डेटा से लिए गए 87 कार्यों वाला एक बहुभाषी बेंचमार्क है। यह बेंचमार्क कई भाषाओं, क्लिनिकल स्पेशलिटी और कार्य प्रकारों को कवर करता है — named entity recognition से लेकर मरीज़ की टाइमलाइन पर क्लिनिकल रीज़निंग तक सब कुछ।
Mass General Brigham की प्रेस रिलीज़ इसके उद्देश्य को "रोज़मर्रा की मरीज़ देखभाल" टेक्स्ट पर AI प्रदर्शन का मूल्यांकन करने के रूप में बताती है — न कि आदर्श परिदृश्यों पर — जो अधिकांश बेंचमार्क लॉन्च की तुलना में कहीं अधिक ईमानदार प्रस्तुति है।
मूल arXiv प्रीप्रिंट के बाद से मूल्यांकन का दायरा बढ़ चुका है। Nature Biomedical Engineering प्रकाशन ने उन 87 कार्यों में 95 LLMs का मूल्यांकन किया, और लीडरबोर्ड दस्तावेज़ीकरण के अनुसार, Hugging Face पर लाइव लीडरबोर्ड अपने सबसे हालिया अपडेट तक 107 मॉडलों के मूल्यांकन तक पहुंच गया था। यह व्यापकता मायने रखती है: वास्तविक क्लिनिकल टेक्स्ट पर 87 कार्यों में 107 मॉडलों की तुलना करने से आपको 50 USMLE प्रश्नों पर पांच मॉडलों की तुलना से बिल्कुल अलग संकेत मिलता है।
EHR टेक्स्ट एक अलग ही दुनिया क्यों है
मानक बेंचमार्क इस अंतर को क्यों चूक जाते हैं, यह कोई रहस्य नहीं है — यह संरचनात्मक कारण है। क्लिनिकल नोट्स में संस्थान-दर-संस्थान बदलते संक्षिप्तीकरण सेट, असंगत फ़ॉर्मेटिंग, अंतर्निहित टेम्पोरल रीज़निंग ("पिछले मंगलवार से लक्षण बिगड़ रहे हैं" — इसके लिए जानना होगा कि नोट की तारीख के सापेक्ष मंगलवार कब था), और बहुभाषी आबादी की सेवा करने वाले स्वास्थ्य प्रणालियों में क्रॉस-लिंगुअल जटिलता शामिल होती है।
Nature Biomedical Engineering में BRIDGE पेपर के अनुसार, बेंचमार्क को विशेष रूप से मॉडलों, भाषाओं, कार्यों और स्पेशलिटी में प्रदर्शन अंतर पकड़ने के लिए डिज़ाइन किया गया था — ऐसे आयाम जिन्हें परीक्षा-शैली बेंचमार्क एक ही सटीकता स्कोर में समेट देते हैं।
Talby का दो विशिष्ट डिप्लॉयमेंट विफलताओं का विश्लेषण — एक FDA Sentinel कार्यक्रम के लिए opioid प्रगति नोट्स से adverse-event निष्कर्षण से जुड़ी, और दूसरी मरीज़ की टाइमलाइन पर drug-causality रीज़निंग से जुड़ी — व्यवहार में इस अंतर को दर्शाता है। दोनों मामलों में, मानक मूल्यांकन पर अच्छा प्रदर्शन करने वाले मॉडल वास्तविक क्लिनिकल टेक्स्ट पाइपलाइन पर संघर्ष करते रहे। बेंचमार्क स्कोर ने आत्मविश्वास का अनुमान लगाया था; डिप्लॉयमेंट ने उस आत्मविश्वास की सीमाएं उजागर कर दीं। ये ठीक वही विफलता के तरीके हैं जिन्हें BRIDGE किसी सिस्टम के मरीज़ रिकॉर्ड के पास जाने से पहले दृश्यमान बनाने के लिए डिज़ाइन किया गया था।
बिल्डर्स और मूल्यांकनकर्ताओं के लिए इसका क्या मतलब है
यदि आप कोई ऐसा AI सिस्टम बना या मूल्यांकन कर रहे हैं जो क्लिनिकल टेक्स्ट को छुएगा, तो BRIDGE आपको सामान्य मूल्यांकन नाटक का एक ठोस विकल्प देता है। लीडरबोर्ड Hugging Face पर लाइव और सार्वजनिक है, जिसका अर्थ है कि आप किसी एकल कुल स्कोर पर निर्भर रहने के बजाय विशिष्ट कार्य प्रकारों में विशिष्ट मॉडलों के प्रदर्शन की तुलना कर सकते हैं। बहुभाषी दायरा भी उल्लेखनीय है: यदि आपके डिप्लॉयमेंट वातावरण में गैर-अंग्रेज़ी क्लिनिकल टेक्स्ट शामिल है, तो केवल अंग्रेज़ी USMLE प्रश्नों को स्कोर करने वाला बेंचमार्क आपको लगभग कुछ भी उपयोगी नहीं बता रहा।
यहां की व्यापक सीख हेल्थकेयर से बहुत आगे तक जाती है। हर डोमेन में इस समस्या का अपना संस्करण होता है — वह साफ-सुथरा बेंचमार्क जो असली कार्य के बजाय उसके प्रॉक्सी को मापता है। क्लिनिकल NLP में बस यह हुआ कि उस बेमेल की कीमत इतनी अधिक थी कि शोधकर्ताओं ने अंततः एक ऐसा बेंचमार्क बनाया जो इसे उजागर करने के लिए पर्याप्त कठोर हो। PubMed Central पर Knowledge-Practice Performance Gap समीक्षा ने 39 अलग-अलग मूल्यांकनों में यही पैटर्न पाया; BRIDGE इस अंतर को सीधे मापने का अब तक का सबसे व्यापक प्रयास है।
उच्च-दांव वाली सेटिंग में AI तैनात करने के बारे में गंभीर किसी भी व्यक्ति के लिए, यह समझना कि आपका मॉडल BRIDGE-शैली के मूल्यांकन पर कैसा प्रदर्शन करता है, अब एक वैकल्पिक सुविधा नहीं, बल्कि न्यूनतम आवश्यकता है। BRIDGE लीडरबोर्ड नए मॉडल सबमिट होते रहने के साथ अपडेट होता रहेगा, जिसका अर्थ है कि तुलना का समूह समय के साथ और समृद्ध होता जाएगा। विशेष रूप से बहुभाषी कार्यों में domain-specific fine-tuned मॉडल और frontier general-purpose मॉडलों के सापेक्ष प्रदर्शन पर नज़र रखें — वहीं सबसे शिक्षाप्रद प्रदर्शन अंतर उभरने की सबसे अधिक संभावना है।
जो मॉडल परीक्षा में अव्वल आता है और चार्ट नोट में लड़खड़ा जाता है, वह क्लिनिकल AI टूल नहीं है। वह एक बहुत महंगा स्टडी पार्टनर है।