इस लेख में (4)
क्लॉड अपना काम दिखाता है: Anthropic के सार्वजनिक मानसिक स्वास्थ्य सिस्टम प्रॉम्प्ट्स से बिल्डर्स को सुरक्षित AI डिज़ाइन के बारे में क्या सीखने को मिलता है
मुख्य बातें
- Anthropic सार्वजनिक रूप से Claude के सिस्टम प्रॉम्प्ट का संस्करण प्रबंधन करता है, जो बिल्डर्स को मानसिक स्वास्थ्य संदर्भों में सुरक्षित और सीमित AI व्यवहार को इंजीनियर करने के लिए एक दुर्लभ वास्तविक-विश्व संदर्भ प्रदान करता है।
- Claude के मानसिक स्वास्थ्य प्रॉम्प्ट में चापलूसी दमन एक प्रथम श्रेणी की सुरक्षा चिंता है, न कि कोई सुधार की वस्तु; किसी मॉडल को सहमति का विरोध करने का स्पष्ट निर्देश देना एक लिखनीय और निरीक्षण योग्य डिज़ाइन है।
- किसी भी संवेदनशील क्षेत्र के बिल्डर्स Anthropic के संरचनात्मक दृष्टिकोण को अपना सकते हैं: भावनात्मक रजिस्टर का नाम दें, AI पहचान सीमाओं को परिभाषित करें, और ईमानदारी की बाधाओं को मुख्य प्रॉम्प्ट आवश्यकताओं के रूप में मानें।
जबकि प्रतिस्पर्धी अपने निर्देशों को तिजोरी में बंद रखते हैं, Anthropic ने Claude के वैश्विक मानसिक स्वास्थ्य मार्गदर्शन को सार्वजनिक किया है, जिससे हर डेवलपर को यह देखने का एक दुर्लभ और ठोस अवसर मिलता है कि संवेदनशील संदर्भों में सीमित AI व्यवहार को कैसे तैयार किया जाता है।
जब प्रतिस्पर्धी अपने निर्देशों को तिजोरी में बंद रखते हैं, तब Anthropic ने Claude के वैश्विक मानसिक स्वास्थ्य मार्गदर्शन को सार्वजनिक कर दिया है — जिससे हर डेवलपर को यह दुर्लभ और ठोस अवसर मिलता है कि वे देख सकें कि संवेदनशील संदर्भों में सीमित AI व्यवहार को कैसे तैयार किया जाता है।
अधिकतर AI कंपनियाँ अपने सिस्टम प्रॉम्प्ट को किसी परमाणु लॉन्च कोड और व्यापारिक रहस्य के मेल की तरह छुपाकर रखती हैं। आप उन्हें देख नहीं सकते। आप उनके बारे में पूछ नहीं सकते। मॉडल बस एक खास तरीके से व्यवहार करता है और आपसे यह उम्मीद की जाती है कि आप उस पर आँख मूँदकर भरोसा करें। Anthropic ने, कम से कम Claude के मानसिक स्वास्थ्य से जुड़े मामलों में, इसके बिल्कुल विपरीत रास्ता अपनाया: ये रहे निर्देश, जाइए और पढ़िए। यह फैसला, भले ही चुपचाप लिया गया हो, डेवलपर्स को कुछ सच में काम की चीज़ देता है: एक असली दुनिया का संदर्भ ढाँचा, जो बताता है कि सिस्टम-स्तर के निर्देश कैसे लिखे जाएँ जब दाँव किसी शॉपिंग लिस्ट को ऑटोकम्प्लीट करने से कहीं ज़्यादा ऊँचे हों।
आम चलन है गोपनीयता, इसीलिए यह असामान्य है
Forbes के योगदानकर्ता डॉ. Lance B. Eliot के अनुसार, अधिकतर बड़े भाषा मॉडल अपने सिस्टम-व्यापी प्रॉम्प्ट की सामग्री सार्वजनिक नहीं करते, खासकर उन प्रॉम्प्ट की जो मानसिक स्वास्थ्य जैसे संवेदनशील विषयों को नियंत्रित करते हैं। सिस्टम प्रॉम्प्ट वह तंत्र है जिसका उपयोग AI निर्माता वैश्विक व्यवहार संबंधी डिफ़ॉल्ट स्थापित करने के लिए करता है: यह हर यूज़र बातचीत से ऊपर बैठता है और यह तय करता है कि मॉडल क्या करेगा और क्या नहीं, इससे पहले कि एक भी शब्द टाइप हो। Eliot का विश्लेषण Claude के सार्वजनिक खुलासे को एक महत्वपूर्ण विषय के रूप में प्रस्तुत करता है, क्योंकि इस स्तर पर पारदर्शिता अपवाद है, न कि सामान्य चलन।
Anthropic का अपना दस्तावेज़ीकरण, जो platform.claude.com पर Claude API डॉक्स के ज़रिए प्रकाशित है, इस बात की पुष्टि करता है कि Claude का वेब इंटरफ़ेस और मोबाइल ऐप संदर्भ प्रदान करने और विशेष व्यवहारों को प्रोत्साहित करने के लिए एक सिस्टम प्रॉम्प्ट का उपयोग करते हैं, और इस प्रॉम्प्ट को Claude Haiku, Sonnet और Opus वेरिएंट सहित मॉडल की पीढ़ियों के अनुसार समय-समय पर अपडेट किया जाता है। यह तथ्य कि वे रिलीज़ नोट्स सार्वजनिक रूप से संस्करणबद्ध और दिनांकित हैं, स्वयं जवाबदेही के बारे में एक डिज़ाइन वक्तव्य है।
प्रॉम्प्ट आर्किटेक्चर वास्तव में क्या करता है
anthropic.com पर प्रकाशित Anthropic की दिसंबर 2025 की पोस्ट, जो उपयोगकर्ता की भलाई की रक्षा पर केंद्रित है, मानसिक स्वास्थ्य मार्गदर्शन के पीछे की संरचनात्मक तर्क-प्रणाली का वर्णन करती है: Claude को सहानुभूति के साथ जवाब देने, AI के रूप में अपनी सीमाओं के बारे में ईमानदार रहने और उपयोगकर्ता की भलाई का ध्यान रखने के लिए डिज़ाइन किया गया है। पोस्ट दो विशेष फोकस क्षेत्रों की पहचान करती है जिनका सुरक्षा टीम ने मूल्यांकन किया: Claude आत्महत्या और आत्म-नुकसान के बारे में बातचीत को कैसे संभालता है, और टीम ने चापलूसी (sycophancy) को कम करने के लिए कैसे काम किया — जिसे कुछ AI मॉडलों की उस प्रवृत्ति के रूप में परिभाषित किया गया है जो उपयोगकर्ताओं को सच और उपयोगी बात बताने की बजाय वह बताती है जो वे सुनना चाहते हैं।
ये दोनों डिज़ाइन विकल्प सिस्टम-प्रॉम्प्ट-स्तर के निर्णय हैं। किसी मॉडल को खुश करने वाले जवाबों के आकर्षण से बचने और इसके बजाय ईमानदार, कभी-कभी असहज करने वाले जवाब देने के लिए कहना कोई फाइन-ट्यूनिंग की तरकीब नहीं है; यह वैश्विक संदर्भ में बुना हुआ निर्देशात्मक ढाँचा है। डेवलपर्स के लिए यह मुख्य अंतर्दृष्टि है: प्रॉम्प्ट व्यवहारात्मक आर्किटेक्चर का काम कर रहा है, न कि केवल विषय फ़िल्टरिंग का।
PubMed Central में LLM-आधारित मानसिक स्वास्थ्य चैटबॉट्स के लिए प्रॉम्प्ट इंजीनियरिंग पर प्रकाशित एक सहकर्मी-समीक्षित वैचारिक ढाँचा स्वतंत्र रूप से समान डिज़ाइन आयामों की पहचान करता है: स्पष्टता, प्रासंगिक रूपरेखा और निर्देशात्मक वाक्य-निर्माण को मूलभूत सिद्धांतों के रूप में सूचीबद्ध किया गया है, साथ में भूमिका-आधारित प्रॉम्प्टिंग और क्षेत्र-विशिष्ट अनुकूलन भी। शोध में कहा गया है कि अच्छी तरह से तैयार किए गए प्रॉम्प्ट स्वास्थ्य सेवा संदर्भों में LLM आउटपुट की गुणवत्ता को काफी हद तक बढ़ाते हैं। Claude का सार्वजनिक प्रॉम्प्ट इन सिद्धांतों को प्रोडक्शन स्तर पर लागू करके दिखाता है, जो कोई अकादमिक पेपर अकेले नहीं दे सकता।
इस संदर्भ में चापलूसी एक सुरक्षा समस्या क्यों है
चापलूसी-विरोधी पहलू पर थोड़ा रुकना ज़रूरी है, क्योंकि इसे आसानी से एक मामूली गुणवत्ता सुधार के रूप में गलत समझा जा सकता है। एक सामान्य कोडिंग असिस्टेंट में, कोई मॉडल जो किसी बुरे विचार को सही ठहराता है, वह बस झुंझलाने वाला है। मानसिक स्वास्थ्य की बातचीत में, एक मॉडल जो संकट में फँसे उपयोगकर्ता की विकृत सोच को वापस उसी पर प्रतिबिंबित करता है, वह झुंझलाने वाला नहीं है; वह सक्रिय रूप से नुकसानदेह है। Anthropic का मानसिक स्वास्थ्य सुरक्षा उपायों में चापलूसी को स्पष्ट रूप से निशाना बनाने का फैसला — जैसा कि भलाई पोस्ट में वर्णित है — इस बात की स्पष्ट समझ को दर्शाता है कि विफलता का स्वरूप केवल तथ्यात्मक गलती नहीं है, बल्कि संबंधात्मक मिलीभगत भी है।
प्रॉम्प्ट को मॉडल की डिफ़ॉल्ट रिवॉर्ड ग्रेडिएंट को बाधित करने का काम करना होता है, जो मूलतः सहमति की दिशा में प्रशिक्षित होती है, और इसे ईमानदार, सीमित समर्थन की दिशा में मोड़ना होता है। यह एक सरल निर्देशात्मक डिज़ाइन समस्या नहीं है, और किसी सार्वजनिक दस्तावेज़ में इसे स्पष्ट रूप से नामांकित देखना उन सभी के लिए उपयोगी है जो इससे जुड़े क्षेत्रों में निर्माण कर रहे हैं — जैसे कोचिंग टूल, शैक्षिक ट्यूटर, या कोई भी ऐसा इंटरफ़ेस जहाँ उपयोगकर्ता किसी खास जवाब में भावनात्मक रूप से निवेशित हो सकता है।
LinkedIn पर Anthropic की स्वास्थ्य सेवा और जीवन विज्ञान सुविधाओं के बारे में लिखते हुए Serena H. Huang ने व्यापक उद्योग में इसी अंतर को चिह्नित किया: कि मानसिक स्वास्थ्य उन सबसे सामान्य कारणों में से एक बना हुआ है जिनके लिए लोग AI की ओर रुख करते हैं, संकट के क्षणों में भी, फिर भी इस तरह के खुलासों से पहले इन बातचीतों को संभालने के तरीके के बारे में स्पष्ट सार्वजनिक जवाब बड़े पैमाने पर अनुपस्थित थे। पारदर्शिता का यह कदम, दूसरे शब्दों में, एक वास्तविक जवाबदेही शून्य को संबोधित करता है।
डेवलपर्स इससे क्या सीख सकते हैं
किसी संवेदनशील क्षेत्र में LLM के ऊपर निर्माण करने वाले किसी भी व्यक्ति के लिए व्यावहारिक निष्कर्ष Anthropic के तरीके में दिखाई देने वाले तीन संरचनात्मक कदमों पर आकर टिकता है। पहला, सिस्टम प्रॉम्प्ट में भावनात्मक संदर्भ को स्पष्ट रूप से नामित करें; यह न मानें कि मॉडल इसे संदर्भ से अनुमान लगा लेगा। दूसरा, मॉडल की पहचान संबंधी सीमाओं को ईमानदारी से परिभाषित करें: Claude को AI के रूप में अपनी सीमाओं को स्वीकार करने का निर्देश दिया गया है, जो एक विशेष, लिखा जा सकने वाला निर्देश है, न कि कोई अस्पष्ट आकांक्षा। तीसरा, चापलूसी दमन को एक प्रमुख सुरक्षा चिंता के रूप में मानें, न कि केवल परिष्करण की एक मद के रूप में।
International Journal of Scientific Research in Computer Science, Engineering and Information Technology ने प्रॉम्प्ट इंजीनियरिंग तकनीकों की एक व्यवस्थित समीक्षा प्रकाशित की जिसमें कहा गया कि भूमिका-आधारित प्रॉम्प्टिंग रणनीतियाँ और पैरामीटर-स्तरीय रूपरेखा सीधे प्रतिक्रिया स्थिरता की चुनौतियों को संबोधित करती हैं; Claude का मानसिक स्वास्थ्य प्रॉम्प्ट उस खोज का लागू प्रमाण है एक ऐसे क्षेत्र में जहाँ स्थिरता वास्तव में मायने रखती है।
anthropic.com पर Anthropic का Transparency Hub इन खुलासों को ज़िम्मेदार AI विकास के प्रति व्यापक प्रतिबद्धता के हिस्से के रूप में प्रस्तुत करता है, जिसमें मॉडल रिपोर्ट, सिस्टम विश्वास और स्वैच्छिक प्रतिबद्धताएँ शामिल हैं। सिस्टम प्रॉम्प्ट का प्रकाशन उसी ढाँचे में फिट बैठता है: यह एक बड़े जवाबदेही रुख के भीतर एक ठोस, निरीक्षण योग्य कलाकृति है।
सीखने वालों और डेवलपर्स के लिए, निमंत्रण सीधा है। प्रॉम्प्ट पढ़ें। इसके संरचनात्मक विकल्पों को शैक्षणिक ढाँचों से तुलना करें। फिर खुद से पूछें कि आपके अपने सिस्टम के वैश्विक निर्देश वास्तव में क्या कह रहे हैं, और क्या कोई समझदार व्यक्ति उन्हें बिना किसी पूर्व जानकारी के पढ़कर यह ठीक-ठीक जान पाएगा कि मॉडल को क्या करना है और क्या नहीं। अगर जवाब अनिश्चित है, तो यही वह प्रॉम्प्ट इंजीनियरिंग समस्या है जिसे आगे हल करना उचित है।
मॉडल ने अपना काम दिखाया। अब आपकी बारी है।
