Table of Contents

आर्टिफिशियल इंटेलिजेंस (AI) की दुनिया में एक नया कदम सामने आया है, जो यह बदल सकता है कि मशीनें कैसे सोचती और सीखती हैं। इस रिसर्च का नाम है — “Absolute Zero AI : Reinforced Self-Play Reasoning with Zero Data”। इसमें पहली बार एक ऐसा AI मॉडल दिखाया गया है जो बिना किसी इंसानी डाटा के, खुद सवाल बनाता है, उन्हें हल करता है और खुद को बेहतर बनाता जाता है।
इसे कहते हैं — एब्सोल्यूट ज़ीरो रीज़नर — जो आर्टिफिशियल जनरल इंटेलिजेंस (AGI) की दिशा में एक बड़ा कदम माना जा रहा है।
पारंपरिक AI मॉडल की सीमाएं
अब तक, ज्यादातर AI मॉडल इंसानों द्वारा बनाए गए डाटा से सीखते हैं। इसे कहते हैं Supervised Learning यानी निर्देशित सीखना। इसमें इंसान मॉडल को सवाल, उनके हल के तरीके और जवाब पहले से देता है। यह ठीक वैसा है जैसे किसी बच्चे को एक-एक स्टेप समझाकर मैथ सिखाना।
लेकिन इस तरीक़े में कुछ बड़ी दिक्कतें हैं:
- डाटा बनाने में खर्चा और मेहनत ज्यादा
- AI की रचनात्मकता सीमित हो जाती है — क्योंकि वह वही सीखता है जो इंसानों ने पहले से सिखाया हो।
फिर आया Reinforcement Learning with Verifiable Rewards (RLVR) का तरीका, जिसमें AI खुद हल करने की कोशिश करता है और अगर सही जवाब देता है तो उसे “रिवॉर्ड” मिलता है।
मगर यहां भी एक दिक्कत है: सवाल अभी भी इंसान ही बनाते हैं। जैसे-जैसे AI स्मार्ट होता गया, इंसानों के लिए उसके लायक सवाल बनाना मुश्किल हो गया।

Absolute Zero AI: खुद से सीखने वाला AI
Absolute Zero Reasoner इन सभी सीमाओं को तोड़ता है। यह मॉडल बिल्कुल शून्य डाटा से शुरू होता है — न सवाल, न जवाब, न इंसानी मदद।
यह AlphaZero से प्रेरित है — वही मॉडल जिसने खुद शतरंज और गो खेल-खेल कर इंसानों को हरा दिया था। लेकिन Absolute Zero सिर्फ खेलों तक सीमित नहीं है — यह सामान्य बुद्धिमत्ता (General Reasoning) सीखता है।
इसका ढांचा दो हिस्सों में बंटा होता है:
- Proposer (टीचर) – जो सवाल और उनके हल बनाता है
- Solver (स्टूडेंट) – जो उन सवालों को हल करने की कोशिश करता है
एक Environment इन दोनों के काम की जांच करता है और सही हल मिलने पर दोनों को इनाम मिलता है। इस तरह ये एक-दूसरे को लगातार बेहतर बनाते रहते हैं।
तीन सोचने के तरीके: Deduction, Induction, Abduction
Absolute Zero तीन प्रकार की लॉजिक का इस्तेमाल करके सीखता है:
- Deduction (निष्कर्ष निकालना) – इनपुट और प्रोग्राम से आउटपुट निकालना। जैसे “hello” को capital करने वाला कोड “HELLO” दे।
- Abduction (कारण खोज़ना) – प्रोग्राम और आउटपुट से यह पता लगाना कि इनपुट क्या था।
- Induction (तर्क बनाना) – इनपुट और आउटपुट से यह समझना कि कौन सा प्रोग्राम इस्तेमाल हुआ होगा।
इन तीनों तरीकों से सोचने की क्षमता बढ़ती है। रिसर्च में पाया गया कि अगर इनमें से कोई एक हटा दिया जाए, तो मॉडल कमजोर हो जाता है।
प्रदर्शन: बिना डाटा के, बेहतरीन नतीजे
सबसे हैरान करने वाली बात यह है कि बिना किसी डाटा से शुरू होने के बावजूद, Absolute Zero Reasoner ने कई ऐसे टॉप मॉडल्स को पछाड़ दिया जो बड़े-बड़े डाटा सेट पर ट्रेंड थे — खासकर कोडिंग और गणित जैसे क्षेत्रों में।
जब Absolute Zero को दूसरे मॉडल्स जैसे LLaMA या Quen के साथ जोड़ा गया, तो उनमें 13% तक सुधार देखने को मिला।
खुद को बेहतर बनाना और कठिन टास्क बनाना
Absolute Zero AI जैसे-जैसे ट्रेन हुआ, इसके सवाल भी ज्यादा मुश्किल और अनोखे होते गए। AI खुद के लिए चैलेंजिंग सवाल बना रहा था — जो एक बड़ी उपलब्धि है।
कुछ मामलों में तो AI ने इतने पेचीदा सवाल बनाए कि उन्हें इंसानों के लिए भी हल करना मुश्किल था। इससे यह तो साबित होता है कि AI की रचनात्मकता बढ़ रही है, लेकिन सुरक्षा और नैतिकता के मुद्दे भी सामने आते हैं।
भविष्य पर असर: नई दिशा में AI विकास
Absolute Zero यह साबित करता है कि सिर्फ बड़े डाटा से ही बुद्धिमत्ता नहीं आती। अगर AI खुद से सीखना शुरू कर दे, तो वह और ज्यादा तेज़ी से, कम खर्च में, और बिना इंसानी हस्तक्षेप के विकसित हो सकता है।
यह मॉडल ओपन-सोर्स है — यानी कोई भी इसे डाउनलोड करके इस्तेमाल और बेहतर बना सकता है।
निष्कर्ष: AI की ट्रेनिंग का नया युग
Absolute Zero Reasoner सिर्फ एक नया AI मॉडल नहीं है — यह एक नया दृष्टिकोण है। अब AI बिना इंसानी मदद के भी सोच सकता है, सीख सकता है और खुद को सुधार सकता है।
लेकिन जितनी तेजी से तकनीक बढ़ रही है, उतना ही जरूरी है कि हम AI को सुरक्षित और नैतिक बनाए रखें।
More Information:
arXiv:2505.03335 [cs.LG] (or arXiv:2505.03335v2 [cs.LG] for this version) https://doi.org/10.48550/arXiv.2505.03335