साकाना AI की RSI लैब का मानना है कि self-improving AI, $100 अरब के डेटा सेंटर निर्माण को अप्रासंगिक बना सकती है
मुख्य बातें
- Sakana AI की RSI Lab छह वास्तविक शोध परियोजनाओं को एकीकृत करती है, जिनमें Darwin Godel Machine और The AI Scientist शामिल हैं, एक औपचारिक कार्यक्रम में जिसका उद्देश्य AI विकास को केवल कंप्यूट-गहन बनाने की बजाय स्व-सुधारशील बनाना है।
- मूल दांव यह है कि संयोजित स्व-सुधार, बड़े पैमाने पर कंप्यूट के उपयोग का विकल्प बन सकता है, जो इस धारणा को सीधी चुनौती देता है कि अग्रणी AI प्रगति के लिए विशाल पूंजी व्यय आवश्यक है।
- ML सीखने वालों के लिए, प्रेफरेंस ऑप्टिमाइजेशन, विकासवादी एल्गोरिदम और स्वचालित शोध पाइपलाइन इस लैब से देखने योग्य तकनीकी क्षेत्र हैं, जो नौकरी बाजार में बढ़ती प्रासंगिकता रखते हैं।
टोक्यो स्थित एक स्टार्टअप ने अभी-अभी औपचारिक रूप से यह दांव लगाया है कि क्रमिक स्व-सुधार, बड़े पैमाने पर जबरदस्ती की स्केलिंग से बेहतर है — और इस दावे को साबित करने के लिए उसके पास दो साल का शोध मौजूद है।
एक स्मार्ट AI बनाने के दो रास्तों की कल्पना कीजिए। पहला रास्ता: डेटा सेंटर पर $100 बिलियन खर्च करो, तीन महाद्वीपों में हर GPU खरीद लो, और तब तक स्केल करते रहो जब तक मॉडल बेहतर न हो जाए। दूसरा रास्ता: AI को खुद को फिर से डिज़ाइन करना सिखाओ, फिर कम्पाउंडिंग को काम करने दो। इंडस्ट्री का ज़्यादातर हिस्सा पहले रास्ते पर दौड़ रहा है। टोक्यो स्थित स्टार्टअप Sakana AI, जिसके सह-संस्थापक और CEO David Ha हैं, ने अभी-अभी औपचारिक रूप से दूसरे रास्ते को अपनाने की प्रतिबद्धता जताई है।
RSI Lab असल में क्या है
Sakana AI ने Sakana AI Recursive Self-Improvement (RSI) Lab लॉन्च की है — यह टोक्यो में स्थित एक समर्पित रिसर्च ग्रुप है जिसका काम AI का उपयोग करके AI विकास की प्रक्रिया को ही फिर से डिज़ाइन करना है। यह जानकारी sakana.ai पर आधिकारिक घोषणा में दी गई है।
इस लैब का मूल विचार कहने में सीधा लेकिन अमल में सच में कठिन है: ब्रूट-फ़ोर्स स्केलिंग पर निर्भर रहने की बजाय, ऐसे सिस्टम बनाओ जो खुद को बार-बार बेहतर करते रहें — और इस तरह कम्प्यूट खर्च को बढ़ाए बिना क्षमताओं का एक कम्पाउंडिंग चक्र तैयार हो।
कंपनी ने अपनी घोषणा में इसे जापान की एक विशेष डिज़ाइन सीमा को रणनीतिक फ़ायदे में बदलने के रूप में पेश किया है। इसकी तुलना जापान के मैन्युफैक्चरिंग में हासिल वर्चस्व से की गई है — जो प्रचुर प्राकृतिक संसाधनों से नहीं, बल्कि फ़ैक्टरी में निरंतर और कम्पाउंडिंग सेल्फ-इम्प्रूवमेंट की दर्शन से हासिल हुई थी। यह एक ऐसी संस्थापक कहानी लगती है जो रामेन खाते-खाते सोची गई हो, लेकिन इसके पीछे की रिसर्च की जड़ें वास्तविक हैं।
यह लैब कोई नया विचार नहीं है जो अचानक आसमान से गिरा हो। The Decoder की रिपोर्ट के अनुसार, Sakana पिछले दो वर्षों से RSI की तकनीकी नींव तैयार कर रहा है, और यह नई लैब उस काम को एक केंद्रित ग्रुप में औपचारिक रूप दे रही है। Member of Technical Staff (RSI Lab) के करियर पेज में इस ग्रुप को "AI विकास की प्रक्रिया को AI के साथ फिर से डिज़ाइन करने" का काम सौंपा गया बताया गया है। यह ग्रुप सीधे CEO David Ha के साथ काम करता है, और Sakana टोक्यो में अपने रिसर्च और इंजीनियरिंग संसाधनों को सक्रिय रूप से बढ़ा रहा है — जिसे वह "compounding intelligence explosion" कहता है।
दावे के पीछे की रिसर्च
इससे पहले कि आप सहमति में सिर हिलाएं या आंखें घुमाएं, यह देखना ज़रूरी है कि Sakana असल में किस चीज़ की ओर इशारा कर रहा है। sakana.ai पर कंपनी की घोषणा और The Decoder की विस्तृत रिपोर्ट के अनुसार, RSI Lab छह पिछले रिसर्च थ्रेड्स को एकजुट करती है।
LLM-Squared (LLM²) में लैंग्वेज मॉडल रिसर्च को ऑटोमेट करके बेहतर preference optimization एल्गोरिदम बनाते हैं। Darwin Gödel Machine में एजेंट स्वायत्त रूप से अपना खुद का कोडबेस फिर से लिखते हैं, और बताया जाता है कि इससे सॉफ़्टवेयर-इंजीनियरिंग परफ़ॉर्मेंस दोगुनी हो गई है। ShinkaEvolve Mixture-of-Experts मॉडल के लिए नए loss functions बनाने वाले hyper-sample-efficient program evolution पर केंद्रित है। ALE-Agent में reinforcement एजेंट सेल्फ-लर्निंग के ज़रिए सैकड़ों मानव विशेषज्ञों से बेहतर प्रदर्शन करते हैं। Digital Red Queen साइबरसिक्योरिटी में RSI की नींव के रूप में open-ended adversarial coevolution की खोज करता है। और The AI Scientist — इनमें सबसे चर्चित — AI रिसर्च के end-to-end ऑटोमेशन को लक्ष्य बनाता है और हाल ही में Nature में प्रकाशित हुआ है, यह sakana.ai की घोषणा के अनुसार।
ये सभी वास्तविक रिसर्च आउटपुट हैं, कोई स्लाइड डेक नहीं। Darwin Gödel Machine तो खासतौर पर ऐसी चीज़ है जो ML रिसर्चर्स को दोबारा सोचने पर मजबूर करती है: एक ऐसा सिस्टम जो अपने खुद के कोडबेस के वेरिएंट बनाता है, टेस्ट करता है, और उन्हें बेहतर बनाता है — जैसा The Decoder नोट करता है। यह सेल्फ-इम्प्रूवमेंट का कोई रूपक नहीं है। यह शाब्दिक रूप से एक एजेंट है जो अपना खुद का कोड एडिट करता है और उसका परिणाम चलाकर देखता है।
असली तर्क कम्प्यूट एफ़िशिएंसी का है
$100 बिलियन का आंकड़ा महज़ बयानबाज़ी नहीं है। यह frontier AI इन्फ्रास्ट्रक्चर खर्च की वास्तविक दिशा को दर्शाता है, और Sakana का काउंटर-थीसिस यह है कि संसाधन की सीमाओं में काम करने वाली एक लैब — जैसा कि Sakana अपने टोक्यो बेस को स्पष्ट रूप से फ्रेम करती है — को क्षमता हासिल करने के लिए चौड़े रास्तों की बजाय स्मार्ट रास्ते खोजने पर मजबूर होना पड़ता है।
Anthropic के अपने रिसर्च इंस्टीट्यूट ने अलग से नोट किया है कि AI पहले से ही AI सिस्टम के विकास को तेज़ कर रहा है — इंटरनल डेटा का हवाला देते हुए बताया कि AI टूल्स के बेहतर होने के साथ Anthropic इंजीनियर हर तिमाही में उल्लेखनीय रूप से ज़्यादा कोड शिप कर रहे हैं। यह Anthropic Institute के recursive self-improvement विश्लेषण के अनुसार है। यह एक अलग संगठन है जो संरचनात्मक रूप से एक मिलती-जुलती बात कह रहा है: AI विकास का ऑटोमेशन पहले से छोटे पैमाने पर हो रहा है, और इसकी दिशा पर नज़र रखना ज़रूरी है।
स्केलिंग लॉज़ के बारे में सोच रहे लर्नर्स के लिए यहां एक महत्वपूर्ण वैचारिक अंतर है: scale को एक संज्ञा के रूप में देखना (ज़्यादा कम्प्यूट, ज़्यादा पैरामीटर, ज़्यादा डेटा) और scale को एक क्रिया के रूप में देखना (एक ऐसी प्रक्रिया जो खुद पर कम्पाउंड होती है)। RSI दूसरे पर दांव लगा रहा है। क्या यह पहले का पूरी तरह विकल्प बन सकता है, यह — सीधे शब्दों में कहें तो — अभी भी एक खुला रिसर्च प्रश्न है।
Wikipedia का recursive self-improvement पर लेख नोट करता है कि इस अवधारणा का एक लंबा सैद्धांतिक इतिहास है, और एक ऐसे सिस्टम के बीच का फ़ासला जो एक संकीर्ण क्षमता को बेहतर करता है और एक ऐसे सिस्टम के बीच जो सामान्य AI विकास को recursive रूप से बेहतर बनाता है — काफ़ी बड़ा है।
अगर आप अभी ML सीख रहे हैं तो इसके मायने क्या हैं
अगर आप मशीन लर्निंग पढ़ रहे हैं, तो यह लॉन्च एक साथ दो चीज़ों के बारे में सोचने के लिए एक उपयोगी अवसर है।
पहला, तकनीकी कॉन्सेप्ट: preference optimization, evolutionary algorithms, code-generating agents, और automated research pipelines — ये सभी सक्रिय रिसर्च क्षेत्र हैं जिनकी job market में वास्तविक प्रासंगिकता है, और Sakana का RSI पोर्टफोलियो इन सभी को छूता है। Darwin Gödel Machine और The AI Scientist को सिर्फ़ प्रेस रिलीज़ के रूप में नहीं, बल्कि पेपर के रूप में पढ़ना फ़ायदेमंद रहेगा।
दूसरा, रणनीतिक नज़रिया: compute-versus-efficiency की बहस यह तय कर रही है कि रिसर्च फंडिंग और प्रतिभा कहां जाएगी, और दोनों पक्षों को समझना आपको एक ज़्यादा informed practitioner बनाता है।
Sakana की RSI Lab अभी शुरुआती दौर में है, दावे महत्वाकांक्षी हैं, और "specific tasks को बेहतर करने वाले एजेंट्स" और "सामान्य AI प्रगति को स्वायत्त रूप से आगे बढ़ाने वाले सिस्टम" के बीच का फ़ासला वास्तविक और अनसुलझा है। लेकिन यहां एकजुट किए जा रहे रिसर्च थ्रेड्स वैध हैं, लैब हायरिंग कर रही है, और जो मूल सवाल पूछा जा रहा है — क्या कम्पाउंडिंग सेल्फ-इम्प्रूवमेंट वह काम कर सकती है जो ब्रूट-फ़ोर्स स्केलिंग करती है, एक अंश मात्र लागत में — यह इस क्षेत्र की सबसे दिलचस्प खुली समस्याओं में से एक है।
Darwin Gödel Machine और The AI Scientist पर आने वाले पेपर्स पर नज़र रखें। सबूत वहीं जमा होंगे।
AI में अभी सबसे महंगी धारणा यह है कि intelligence के लिए असीमित पूंजी चाहिए। Sakana उस तर्क के दूसरे पक्ष के लिए एक उद्धरण बना रहा है।
