Back to Blog

Data Wall को तोड़ना: David Silver ने Human-Free AI Learning के लिए $1.1B जुटाए

April 28, 2026by Ichiban Team
aimachine learningreinforcement learningdeepmindindustry news

Hero

#Introduction

पिछले आधे दशक से, artificial intelligence का रास्ता काफी हद तक एक ही चीज़ पर निर्भर रहा है: human-generated data का वॉल्यूम। GPT के शुरुआती वर्ज़न से लेकर आज के multi-modal behemoths तक, हमारे मॉडल्स को इंसानों द्वारा इंटरनेट पर छोड़े गए अनगिनत डेटा पर ट्रेन किया गया है। लेकिन अब हम तेज़ी से एक फिजिकल लिमिट की तरफ बढ़ रहे हैं, जिसे इंडस्ट्री में "data wall" कहा जाता है। दुनिया में हाई-क्वालिटी टेक्स्ट, कोड और मीडिया एक सीमित मात्रा में ही मौजूद है, और जिस रफ़्तार से हम आगे बढ़ रहे हैं, हम बहुत जल्द इसे पूरा कंज़्यूम कर लेंगे।

यहीं एंट्री होती है David Silver की। DeepMind के पूर्व रिसर्चर—जो AlphaGo, AlphaZero और MuZero के लीड आर्किटेक्ट के रूप में दुनियाभर में मशहूर हैं—ने एक ऐसा बड़ा कदम उठाया है जो AI की नेक्स्ट जनरेशन को पूरी तरह बदल सकता है। कल ही यह खबर आई है कि Silver ने $1.1 billion का भारी-भरकम फंड एक ऐसे नए वेंचर के लिए जुटाया है जिसका मिशन बहुत ही क्रांतिकारी है: एक ऐसा artificial intelligence बनाना जो पूरी तरह से human data के बिना सीख सके।

#What Happened

TechCrunch की एक हालिया रिपोर्ट के अनुसार, Silver के stealth startup ने $1.1 billion का फंडिंग राउंड सफलतापूर्वक क्लोज़ कर लिया है, जिसमें टॉप-टियर venture firms और स्ट्रेटेजिक इंडस्ट्री पार्टनर्स से बड़ा इन्वेस्टमेंट आया है। हालाँकि कंपनी का नाम और एग्ज़ैक्ट प्रोडक्ट रोडमैप अभी भी सीक्रेट रखा गया है, लेकिन उनका कोर मिशन बिल्कुल क्लियर है। वे human datasets पर लार्ज-स्केल supervised learning के पुराने तरीके को छोड़कर पूरी तरह से autonomous learning environments की ओर शिफ्ट हो रहे हैं।

Silver का पिछला ट्रैक रिकॉर्ड इसे सिलिकॉन वैली के आम मूनशॉट प्रोजेक्ट्स से कहीं आगे ले जाता है। DeepMind में उनके ज़बरदस्त काम ने यह साबित कर दिया था कि self-play के ज़रिए reinforcement learning (RL) न सिर्फ इंसानी एक्सपर्टीज़ की बराबरी कर सकती है, बल्कि Go और Chess जैसे जटिल एनवायरनमेंट में इंसानों को बुरी तरह हरा भी सकती है। AlphaZero के साथ, सिस्टम को इंसानों द्वारा खेले गए गेम्स का कोई डेटाबेस नहीं दिया गया था; उसे सिर्फ बोर्ड के नियम बताए गए और खुद के साथ लाखों मैच खेलने के लिए छोड़ दिया गया। ऐसा करके, उसने ऐसी स्ट्रेटेजीज़ खोज निकालीं जो इंसानों ने हज़ारों सालों में भी नहीं सोची थीं। अब उनका लक्ष्य इस self-taught अप्रोच को गेम बोर्ड से बाहर निकालकर real-world एप्लिकेशन्स में अप्लाई करना है।

#Why It Matters

इस डेवलपमेंट की अहमियत समझने के लिए हमें AI scaling laws के मौजूदा bottleneck को समझना होगा। आज का मुख्य तरीका भारी रूप से Supervised Fine-Tuning (SFT) और Reinforcement Learning from Human Feedback (RLHF) पर निर्भर करता है। लेकिन इस अप्रोच में तीन बड़ी और unavoidable कमियां हैं:

  • Finite Supply: हाई-क्वालिटी human data एक लिमिटेड रिसोर्स है। रिसर्च का अनुमान है कि हम इस दशक के अंत तक इंटरनेट पर मौजूद बढ़िया ट्रेनिंग टेक्स्ट खत्म कर देंगे, जिससे बड़े मॉडल्स से मिलने वाले रिटर्न्स कम होते जाएंगे।
  • Human Bias and Limitations: जो मॉडल्स पूरी तरह से human data पर ट्रेन होते हैं, वो इंसानी काबिलियत की हद से बंधे होते हैं। वे हमारे cognitive biases, हमारी लॉजिकल गलतियों और सबसे अहम, हमारे परफॉरमेंस की लिमिट्स को कॉपी कर लेते हैं।
  • Economic and Legal Friction: भारी-भरकम डेटासेट्स को स्क्रैप, क्यूरेट और एनोटेट करना बहुत ज़्यादा महंगा है और यह लगातार कॉपीराइट और लाइसेंसिंग के झगड़ों में फंसता जा रहा है।

सीखने के प्रोसेस को human data से पूरी तरह अलग करके, Silver का नया वेंचर इसी परफॉरमेंस लिमिट को तोड़ने का लक्ष्य रखता है। अगर कोई AI केवल कॉपी करने के बजाय self-play और environment interaction के ज़रिए जनरल रीज़निंग, फिजिक्स या मुश्किल सॉफ्टवेयर इंजीनियरिंग सीख सके, तो इसकी पोटेंशियल इंटेलिजेंस की कोई लिमिट नहीं होगी।

#Technical Implications

डेटा-ड्रिवेन Large Language Models (LLMs) से autonomous RL agents की तरफ जाने के लिए एक फंडामेंटल architectural shift की ज़रूरत होती है। इंजीनियर्स के लिए सबसे पहला सवाल यह है: आप AlphaZero की methodology को ओपन-एंडेड, रियल-वर्ल्ड प्रॉब्लम्स पर कैसे अप्लाई करेंगे?

#The Reward Function Bottleneck

Go जैसे गेम में, reward function बहुत ही सिंपल होता है: जीत (+1) या हार (-1)। लेकिन general intelligence टास्क में एक mathematical reward function डिफ़ाइन करना बहुत मुश्किल काम है। आप किसी ह्यूमन इंजीनियर के बिना एक मॉडल को हाईली ऑप्टिमाइज़्ड microservice लिखने या क्लाउड एनवायरनमेंट को सुरक्षित रूप से कॉन्फ़िगर करने पर ऑटोमैटिकली कैसे स्कोर करेंगे?

हमें उम्मीद है कि यह नया वेंचर verifiable simulation environments बनाने में भारी इन्वेस्टमेंट करेगा। स्टैटिक टेक्स्ट डेटासेट में अगले टोकन को प्रेडिक्ट करने के बजाय, यह मॉडल किसी कंपाइलर, फिजिक्स इंजन या सिमुलेटेड नेटवर्क सैंडबॉक्स के अंदर एक्शन्स आउटपुट करेगा। इसे verifiable functional success के आधार पर इंट्रिन्सिक रिवॉर्ड्स मिलेंगे (जैसे, "क्या कोड कंपाइल हुआ?", "क्या इसने टेस्ट सुइट पास किया?", "क्या यह 10ms के अंदर एग्ज़ीक्यूट हुआ?")।

#Self-Play vs. Supervised Learning

FeatureSupervised Learning (Current LLMs)Self-Play Reinforcement Learning
Primary Inputभारी human-curated डेटासेट्स (Common Crawl, GitHub)Environmental रूल्स, constraints, और सैंडबॉक्स फीडबैक
Learning Mechanismनेक्स्ट-टोकन प्रेडिक्शन, imitation learningTrial and error, पॉलिसी ऑप्टिमाइज़ेशन, स्टेट इवैल्यूएशन
Performance Ceilingसबसे बेहतरीन human data की हद तक लिमिटेडथ्योरेटिकली अनबाउंडेड (सुपरह्यूमन डिस्कवरी)
Compute Phaseशुरुआती प्री-ट्रेनिंग के दौरान बहुत ज़्यादा हैवीकंटीन्यूअस ट्रेनिंग और रनटाइम जनरेशन (search) के दौरान हैवी

#Algorithmic Innovations

इसे अचीव करने के लिए, हम Monte Carlo Tree Search (Mcripts) जैसे एल्गोरिदम्स के एडवांस्ड इंप्लीमेंटेशन्स देख सकते हैं जिन्हें सीधे न्यूरल नेटवर्क्स के inference स्टेप में इंटीग्रेट किया जाएगा। इससे मॉडल किसी भी रास्ते पर जाने से पहले "सोच" सकता है और अलग-अलग आउटकम्स को सिमुलेट कर सकता है। यह आज के रीज़निंग मॉडल्स के ट्रेंड से मिलता-जुलता है, लेकिन इसे एक एक्सट्रीम लेवल पर ले जाया जाएगा जहाँ मॉडल डायनेमिक रूप से अपना खुद का एग्ज़ॉस्टिव ट्रेनिंग करिकुलम जनरेट करेगा।

#What’s Next

शुरुआत में ही $1.1 billion रेज़ करना इस बात का साफ़ इशारा है कि इस अप्रोच का बुनियादी इन्फ्रास्ट्रक्चर बहुत ज़्यादा compute-intensive होने वाला है। इतने कॉम्प्लेक्स एनवायरनमेंट्स में एक जनरलाइज़्ड RL agent को शुरू से ट्रेन करने के लिए exaflops की प्रोसेसिंग पावर की ज़रूरत होगी। यह पावर शायद स्टैटिक टेक्स्ट फाइल्स को क्रंच करने के बजाय एक साथ लाखों सिमुलेशन्स रन करने के लिए डेडीकेट की जाएगी।

अगले 12 से 18 महीनों में, इंडस्ट्री को ये चीज़ें देखने की उम्मीद करनी चाहिए:

  1. Massive Compute Procurement: यह स्टार्टअप शायद हाईली पैरेलल सिमुलेशन के लिए ऑप्टिमाइज़ किए गए नेक्स्ट-जनरेशन AI accelerators का एक बहुत बड़ा और डेडीकेटेड क्लस्टर सेट अप करेगा।
  2. Targeted Domain Alpha: इनका पहला प्रूफ-ऑफ़-कांसेप्ट शायद कोई जनरल-पर्पस कंज्यूमर चैटबॉट नहीं होगा। इसके किसी ऐसे डोमेन में स्पेशलाइज़्ड एजेंट होने की ज़्यादा संभावना है जहाँ रिज़ल्ट्स को वेरिफाई किया जा सके, जैसे automated theorem proving, एडवांस्ड सॉफ्टवेयर सिंथेसिस, या कॉम्प्लेक्स मॉलिक्यूलर डिस्कवरी।
  3. The Rise of Synthetic Verification: हम AI आउटपुट्स को मैथमेटिकली वेरिफाई करने वाले ओपन-सोर्स और एंटरप्राइज़ टूल्स में तेज़ी से उछाल देखने की उम्मीद कर रहे हैं, जो इस नई तरह की ट्रेनिंग के लिए ज़रूरी ऑटोमेटेड, हाई-फिडेलिटी रिवॉर्ड सिग्नल्स प्रोवाइड करेंगे।

#Conclusion

David Silver का यह $1.1B का बड़ा दांव artificial intelligence के इतिहास में एक बहुत ही अहम मोड़ है। हम AI को इंटरनेट हिस्ट्री कॉपी करने वाले "stochastic parrot" से एक ऐसे autonomous explorer में बदलने की पहली बड़ी कोशिश देख रहे हैं जो फर्स्ट प्रिंसिपल्स से नई नॉलेज खोज निकालता है।

डेवलपर्स और सॉफ्टवेयर इंजीनियर्स के लिए, यह एक ऐसे फ्यूचर का संकेत है जहाँ AI टूल्स सिर्फ Stack Overflow के स्निपेट्स के आधार पर हमारे सिंटैक्स को ऑटोकम्प्लीट नहीं करेंगे, बल्कि रिगोरस self-play के ज़रिए पूरी तरह से नए, मैथमेटिकली ऑप्टिमाइज़्ड एल्गोरिदम्स खुद इन्वेंट करेंगे। इंडस्ट्री के सामने data wall का संकट काफी बड़ा दिख रहा है, लेकिन अगर हम Silver के ट्रैक रिकॉर्ड को देखें, तो हो सकता है कि हमें इस दीवार को तोड़ने के लिए असल में human data की ज़रूरत ही न पड़े।