
इस लेख में (3)
यूके सरकार ने साप्ताहिक AI हैकाथॉन चलाए और 400+ कमज़ोरियाँ खोजीं। बिल्डर्स के लिए इसका क्या मतलब है।
मुख्य बातें
- GC3 के साप्ताहिक AI हैकाथॉन ने 9 UK सरकारी विभागों में 400 से अधिक कमजोरियाँ खोजीं और उन्हें ठीक किया, जिससे यह साबित हुआ कि बार-बार होने वाला प्रतिकूल मूल्यांकन एकबारगी ऑडिट से बेहतर है।
- फ्रंटियर AI तैनात करने वाले निर्माताओं को रेड-टीमिंग को एक सतत अभ्यास के रूप में अपनाना चाहिए: टीमों को मॉडल तक पहुँच, एक वास्तविक लक्ष्य सतह और एक फीडबैक लूप दें, न कि लॉन्च से पहले का एक बार का चेकबॉक्स।
- AI कमजोरियाँ उजागर कर सकता है और सुधार सुझा सकता है, लेकिन दोनों चरणों में मानवीय समझ अभी भी महत्वपूर्ण है; AI द्वारा उत्पन्न पैच पर अत्यधिक निर्भरता से समाधान की सटीकता कम हो जाती है।
GC3 का संरचित रेड-टीमिंग कार्यक्रम यह दर्शाता है कि सरकारी निकायों द्वारा विरोधात्मक मूल्यांकन अब फ्रंटियर AI सुरक्षा में एक वास्तविक शक्ति बन चुकी है।
GC3 का संरचित रेड-टीमिंग कार्यक्रम यह दर्शाता है कि सरकारी निकायों द्वारा विरोधात्मक मूल्यांकन अब फ्रंटियर AI सुरक्षा में एक वास्तविक शक्ति बन चुका है।
कल्पना कीजिए कि आपकी सुरक्षा टीम हर हफ्ते एक कॉन्फ्रेंस रूम बुक करती है, frontier AI मॉडलों तक पहुंच देती है, और कहती है: कुछ टूटा हुआ ढूंढो। कोई एक तय तरीका नहीं, कोई एकीकृत टूलचेन नहीं, बस सार्वजनिक कोड रिपॉजिटरी पर केंद्रित संरचित विरोधी जिज्ञासा। यह कोई काल्पनिक प्रयोग नहीं है। यही UK Government Cyber Coordination Centre (GC3) ने वास्तव में किया, और इस अभ्यास की मुख्य संख्या है 400 से अधिक खोजी और ठीक की गई कमजोरियाँ। यह कहानी AI के किसी अमूर्त, अस्पष्ट अर्थ में खतरनाक होने के बारे में नहीं है। यह इस बारे में है कि जब आप एक वास्तविक परिचालन संदर्भ में frontier मॉडलों पर अनुशासित, दोहराने योग्य रेड-टीमिंग लागू करते हैं तो क्या होता है। इन मॉडलों पर निर्माण करने वाले किसी भी व्यक्ति के लिए, यह सीख व्यावहारिक भी है और थोड़ी विनम्र करने वाली भी।
GC3 ने वास्तव में क्या किया (और तरीका क्यों मायने रखता है)
Infosecurity Magazine और UK सरकार के अपने केस स्टडी के अनुसार, GC3, National Cyber Security Centre (NCSC) और Department for Science, Innovation and Technology (DSIT) के बीच एक संयुक्त पहल है। इस कार्यक्रम ने साप्ताहिक, व्यक्तिगत हैकाथॉन कार्यक्रम आयोजित किए, जिनका स्पष्ट लक्ष्य नौ सरकारी विभागों में सार्वजनिक कोड रिपॉजिटरी को स्कैन करने के लिए frontier AI मॉडलों का उपयोग करना था। इसका पैमाना ध्यान देने योग्य है: नौ विभाग, नियमित साप्ताहिक सत्र, और 400 से अधिक खोजी और ठीक की गई कमजोरियों का अंतिम आंकड़ा। इस पद्धति को दिलचस्प बनाता है प्रारंभिक चरणों में जानबूझकर कठोर मानकीकरण की अनुपस्थिति। जैसा कि GOV.UK केस स्टडी बताती है, टीमों को मॉडल तक पहुंच दी गई और उन्हें अपना स्वयं का टूलिंग बनाने की अनुमति दी गई, जबकि कार्यक्रम हर हफ्ते देखता था कि क्या काम करता है और फिर उसी के आधार पर सुधार करता था। यह दृष्टिकोण — व्यावहारिकों को प्रयोग करने देना और फिर जो वास्तव में काम करता है उसे संहिताबद्ध करना — ऊपर से नीचे के आदेशों के साथ एक सार्थक विरोधाभास है जो अक्सर वास्तविक सुरक्षा संकेत के बजाय अनुपालन का नाटक उत्पन्न करते हैं। GC3 वास्तव में, अनुप्रयुक्त AI रेड-टीमिंग में एक जीवंत प्रयोग चला रहा था।
सरकारी रेड-टीमिंग एक ऐसा संकेत क्यों है जिसे पढ़ना जरूरी है
AI लैब रिलीज से पहले अपने स्वयं के मॉडलों की रेड-टीमिंग करती हैं। यह अच्छी तरह से दस्तावेज़ीकृत है और, स्पष्ट रूप से, अपेक्षित भी। जो कम सामान्य है, और अधिक शिक्षाप्रद है, वह यह है कि एक बाहरी सरकारी निकाय एक बार के ऑडिट के बजाय एक निरंतर, परिचालन कार्यक्रम में संरचित विरोधी मूल्यांकन करे। GC3 का निष्कर्ष बताता है कि वास्तविक वर्कफ्लो में तैनात frontier मॉडलों की कमजोरी की सतह इतनी व्यापक है कि सरकारी विभागों में साप्ताहिक आवृत्ति नए परिणाम देती रहती है।
यह UK नियामक निकायों की व्यापक चिंताओं के साथ बैठता है। Bank of England, FCA, और HM Treasury के एक संयुक्त बयान में कहा गया कि वर्तमान frontier AI मॉडलों की साइबर क्षमताएं पहले से ही एक कुशल व्यावसायिक की तुलना में अधिक हैं, और काफी अधिक गति, बड़े पैमाने, और कम लागत पर। उसी बयान ने चेतावनी दी कि जिन फर्मों ने मूल साइबर सुरक्षा बुनियादी बातों में कम निवेश किया है, वे अधिक उन्नत मॉडलों के उपलब्ध होने पर संभवतः अधिक उजागर होती जाएंगी। यह विनम्र तरीके से कहने का एक तरीका है: तैयार और अतैयार संगठनों के बीच का अंतर बहुत जल्द बहुत बड़ा होने वाला है।
UK AI Security Institute (AISI) ने अपनी Frontier AI Trends Report भी प्रकाशित की है, दो साल के frontier मॉडल परीक्षण से प्राप्त एक सार्वजनिक साक्ष्य-आधारित मूल्यांकन, जो यह समझने के लिए अतिरिक्त संदर्भ प्रदान करती है कि सुरक्षा के दृष्टिकोण से ये प्रणालियां कैसे विकसित हो रही हैं। UK AISI द्वारा नियुक्त RAND ने अलग से आक्रामक साइबर हमलों के लिए frontier AI मॉडलों के संभावित उपयोग की जांच की, विशेष रूप से यह परीक्षण करते हुए कि AI पहुंच से कम-कुशल खतरे वाले कारक कैसे प्रभावित होते हैं। वह शोध यह मजबूत करता है कि इस समीकरण का रक्षात्मक पक्ष — GC3 जो काम कर रही है — वैकल्पिक नहीं है।
निर्माताओं के लिए इससे क्या सीखें
यदि नौ विभागों में सार्वजनिक रिपॉजिटरी स्कैन करने वाला एक सरकारी कार्यक्रम एक निरंतर साप्ताहिक कार्यक्रम में 400 से अधिक कमजोरियां उजागर कर सकता है, तो frontier AI पर निर्माण करने वाले किसी भी व्यक्ति के लिए निहित सीख आरामदायक नहीं है। यह है कि विरोधी मूल्यांकन लॉन्च से पहले एक बार की जांच सूची नहीं है। यह एक आवर्ती अभ्यास है।
GC3 मॉडल एक ऐसा खाका प्रदान करता है जो वास्तव में छोटे पैमाने पर दोहराने योग्य है। आपको नौ सरकारी विभागों की आवश्यकता नहीं है। आपको चाहिए:
- मॉडल तक पहुंच
- चीजें तोड़ने की अनुमति वाली एक टीम
- एक स्पष्ट लक्ष्य सतह (आपकी अपनी कोड रिपॉजिटरी, आपके अपने इंटीग्रेशन, आपके अपने प्रॉम्प्ट)
- एक फीडबैक लूप जो काम करने वाली चीजों को कैप्चर करे
GC3 के अपने दृष्टिकोण ने एक ही तरीका तय करने के बजाय टीमों को अपना टूलिंग बनाने देने पर जोर दिया, जो सीधे उस तरीके से मेल खाता है जिस तरह परिपक्व इंजीनियरिंग टीमें पहले से ही आंतरिक सुरक्षा समीक्षाएं चलाती हैं। AI परत नई है; विरोधी सोच का अनुशासन नहीं है।
एक उपयोगी प्रतिबिंदु भी है जिस पर ध्यान देना उचित है। NDC Sydney में एक अलग वार्ता ने 400 से अधिक AI-जनित सुरक्षा पैच का विश्लेषण किया और पाया कि जब डेवलपर केवल AI सुझावों पर निर्भर रहे तो उपचार सटीकता में उल्लेखनीय गिरावट आई, जिसमें कई प्रतिभागी यह नहीं समझा सके कि किसी दिए गए पैच ने अंतर्निहित समस्या को कैसे हल किया। AI कमजोरियां ढूंढ सकता है और AI सुधार प्रस्तावित कर सकता है, लेकिन दोनों चरणों को समझने और सत्यापित करने की मानवीय क्षमता आवश्यक बनी रहती है। GC3 कार्यक्रम इसे परोक्ष रूप से एन्कोड करता है: यह सप्ताह दर सप्ताह, मनुष्यों को कमरे में रखता है, निर्माण करते, आलोचना करते और सुधार करते हुए।
सीखने वालों और व्यावसायिकों के लिए जो इस कौशल सेट को बनाना चाहते हैं, शुरुआती बिंदु यह समझना है कि रेड-टीमिंग में वास्तव में क्या शामिल है: परिभाषित दायरे, दस्तावेज़ीकृत निष्कर्षों, और सत्यापित उपचार के साथ व्यवस्थित विरोधी जांच। GC3 के परिणाम एक अनुस्मारक हैं कि वास्तविक प्रणालियों में तैनात frontier मॉडल सीलबंद, परीक्षित कलाकृतियां नहीं हैं। वे जीवंत सतहें हैं, और संरचित विरोधी मूल्यांकन ही वह तरीका है जिससे आप उनमें मौजूद चीजों से आगे रहते हैं।
देखते रहें कि GC3 कार्यक्रम आगे के निष्कर्ष कैसे प्रकाशित करता है, AISI Trends Report UK AI सुरक्षा नीति को कैसे आकार देती है, और क्या अन्य सरकारें इसी तरह के आवर्ती कार्यक्रम स्थापित करती हैं। आवर्ती-आवृत्ति मॉडल — एक बार के ऑडिट की नहीं — वह दृष्टिकोण लगता है जो वास्तव में परिणाम देता है।