Yann LeCun के AMI Labs ने World Models बनाने के लिए $1.03 Billion की फंडिंग हासिल की

Hero

#Introduction

आर्टिफिशियल इंटेलिजेंस (AI) का लैंडस्केप एक बहुत बड़े आर्किटेक्चरल शिफ्ट से गुजर रहा है। पिछले कई सालों से, autoregressive Large Language Models (LLMs) जैसे GPT-4 और Claude का ही पूरी तरह से दबदबा रहा है। लेकिन अब एक फंडामेंटल डिसरप्शन (fundamental disruption) होने वाला है। AMI Labs, जिसका नेतृत्व AI पायनियर और Turing Award विनर Yann LeCun कर रहे हैं, ने अभी-अभी $1.03 billion के एक बहुत बड़े फंडिंग राउंड की घोषणा की है। उनका मिशन क्या है? ऐसे "world models" बनाना जो मौजूदा generative AI की लिमिटेशन्स को पार कर सकें।

Ichiban Tools में, हम हमेशा डेवलपर टेक्नोलॉजीज के भविष्य पर नज़र रखते हैं। भले ही हम आज के इंजीनियरिंग चैलेंजेस के लिए प्रैक्टिकल यूटिलिटीज बनाते हैं, लेकिन कल के आर्किटेक्चरल शिफ्ट्स को समझना बहुत जरूरी है। आइए डिटेल में समझते हैं कि AMI Labs क्या बना रहा है, world models की अंडरलाइंग टेक्नोलॉजी क्या है, और क्यों यह बिलियन-डॉलर का दांव मशीन इंटेलिजेंस को फिर से डिफाइन कर सकता है।

#क्या हुआ: Objective-Driven AI पर बिलियन-डॉलर का दांव

TechCrunch के अनुसार, AMI Labs ने अपनी अर्ली-स्टेज फंडिंग में $1.03 billion हासिल किए हैं। यह भारी-भरकम इन्वेस्टमेंट इस बात को रेखांकित करता है कि autoregressive LLM की कैपेबिलिटीज के सैचुरेट होने के बाद, इंडस्ट्री अब "next big thing" के लिए कितनी भूखी है।

सालों से, LeCun purely autoregressive अप्रोच के मुखर आलोचक रहे हैं। उनका तर्क है कि केवल अगले टोकन को प्रेडिक्ट करना ह्यूमन-लेवल रीज़निंग या सच्चे artificial general intelligence (AGI) को हासिल करने के लिए फंडामेंटली नाकाफी है। इसके बजाय, उनकी रिसर्च—और अब AMI Labs का कमर्शियल फोकस—Objective-Driven AI और ऐसे आर्किटेक्चर्स पर केंद्रित है जो असल दुनिया की अंडरलाइंग फिजिक्स और लॉजिक को सीखते हैं।

यह विशाल seed/Series A फंडिंग उन इमेंस कंप्यूट क्लस्टर्स (compute clusters) को पावर देगी जो इन नए आर्किटेक्चर्स को बड़े स्केल पर ट्रेन करने के लिए जरूरी हैं, ताकि इन्हें केवल रिसर्च पेपर्स से निकालकर एंटरप्राइज डिप्लॉयमेंट के लिए तैयार foundational models में बदला जा सके।

#यह क्यों मायने रखता है: Autoregressive Trap से बाहर निकलना

AMI Labs की अहमियत को समझने के लिए, हमें मौजूदा LLM आर्किटेक्चर्स की लिमिटेशन्स को बारीकी से देखना होगा:

Hallucinations by Design: क्योंकि LLMs ट्रेनिंग डेटा की फ्रीक्वेंसी के आधार पर स्टैटिस्टिकली टेक्स्ट जेनरेट करते हैं, इसलिए उनके पास रियलिटी का कोई अंडरलाइंग, ग्राउंडेड मॉडल नहीं होता है। वे फैक्ट्स को नहीं "जानते"; वे केवल वर्ड्स के कोरिलेशन (word correlations) को जानते हैं।
The Planning Deficit: Autoregressive मॉडल्स लीनियर तरीके से, left-to-right आंसर्स जेनरेट करते हैं। वे ऐसे कॉम्प्लेक्स, मल्टी-स्टेप प्लानिंग में बहुत स्ट्रगल करते हैं जहाँ बैकट्रैकिंग (backtracking), हाइरार्किकल रीज़निंग (hierarchical reasoning), या कई फ्यूचर स्टेट्स को सिमुलेट करने की जरूरत होती है।
Sample Inefficiency: इंसान बहुत ही कम डेटा के साथ यह सीख जाते हैं कि फिजिकल दुनिया कैसे काम करती है (उदाहरण के लिए, एक बच्चा जल्दी सीख जाता है कि बिना सपोर्ट वाली चीज़ें गिर जाती हैं)। इसके उलट, LLMs को केवल कॉमन सेंस का अनुमान लगाने के लिए ट्रिलियंस (trillions) टोकन्स की जरूरत होती है, जो उन्हें बहुत ही इनएफिशिएंट लर्नर्स (inefficient learners) बनाता है।

World models का लक्ष्य इन्हीं फंडामेंटल कमियों को दूर करना है। World model किसी एनवायरनमेंट का एक इंटरनल मैथमेटिकल रिप्रेजेंटेशन होता है जो AI सिस्टम को कोई एक्शन लेने से पहले ही उसके नतीजों को प्रेडिक्ट करने की क्षमता देता है। इसे एक हाईली एडवांस्ड ऑटो-कम्प्लीट (autocomplete) की तरह कम, और AI के आर्किटेक्चर के अंदर चल रहे एक फिजिक्स सिमुलेशन इंजन (physics simulation engine) की तरह ज्यादा समझें।

#Technical Implications: Tokens से Abstract Representations तक

AMI Labs के पीछे की कोर टेक्नोलॉजी काफी हद तक JEPA (Joint Embedding Predictive Architecture) और Energy-Based Models (EBMs) जैसे आर्किटेक्चर्स पर निर्भर करेगी। यहाँ एक टेक्निकल ब्रेकडाउन दिया गया है कि यह पैराडाइम आज के डेवलपर्स द्वारा इस्तेमाल किए जाने वाले Transformer-बेस्ड LLMs से कैसे अलग है।

#The Autoregressive Paradigm (Current State)

मौजूदा मॉडल्स टोकन्स के एक सीक्वेंस को लेते हैं, उन्हें एनकोड करते हैं, और अगले टोकन के प्रोबेबिलिटी डिस्ट्रीब्यूशन को प्रेडिक्ट करते हैं।

x_t+1 = Model(x_0, x_1, ..., x_t)

इस पैराडाइम में, समय के साथ एरर्स (errors) एक्सपोनेंशियली (exponentially) बढ़ते जाते हैं। अगर 10-स्टेप के रीज़निंग प्रोसेस में स्टेप 3 थोड़ा सा भी गलत हो जाता है, तो मॉडल बैकट्रैक (backtrack) नहीं कर सकता; और बाकी का पूरा आउटपुट पूरी तरह से गलत हो जाता है।

#The JEPA Paradigm (The Future)

मिसिंग पिक्सल्स या टेक्स्ट टोकन्स को सीधे प्रेडिक्ट करने के बजाय (जो मॉडल को इर्रेलेवेंट, हाई-फ्रीक्वेंसी नॉइज़ पर कंप्यूट वेस्ट करने के लिए मजबूर करता है), JEPAs मिसिंग डेटा के abstract representation को प्रेडिक्ट करते हैं।

Encode the Context: नोन डेटा (known data) को (जैसे कि वीडियो का पहला हिस्सा या कोई कॉम्प्लेक्स स्टेट) एक एनकोडर के जरिए रन करें ताकि एक एब्स्ट्रैक्ट मैथमेटिकल रिप्रेजेंटेशन मिल सके।
Predict the Future Representation: एक प्रेडिक्टर नेटवर्क का इस्तेमाल करके यह कैलकुलेट करें कि किसी स्पेसिफिक प्रपोज्ड एक्शन के आधार पर फ्यूचर स्टेट का रिप्रेजेंटेशन क्या होगा।
Compare in Abstract Space: लॉस फंक्शन (loss function) को रॉ डेटा स्पेस (raw data space) में नहीं, बल्कि एम्बेडिंग स्पेस (embedding space) में कैलकुलेट किया जाता है।

यह मॉडल को अनप्रेडिक्टेबल, इर्रेलेवेंट डिटेल्स (जैसे किसी तालाब में उठती लहरों का एकदम सटीक टेक्सचर) को इग्नोर करने और पूरी तरह से मैक्रोस्कोपिक लॉजिक (macroscopic logic) पर फोकस करने की सहूलियत देता है (जैसे पत्थर पानी में गिरा और उसकी वजह से डिस्टर्बेंस पैदा हुआ)।

#Energy-Based Models (EBMs)

LeCun के विज़न में EBMs का एक बहुत बड़ा रोल है। एक EBM में, सिस्टम एक ऐसी स्टेट को खोजने की कोशिश करता है जो मैथमेटिकल "एनर्जी" फंक्शन को मिनिमाइज़ (minimize) कर सके, जो किसी कॉन्टेक्स्ट और प्रपोज्ड आंसर या प्लान के बीच की कम्पैटिबिलिटी (compatibility) को मापता है। यह टोकन्स की प्रोबेबिलिस्टिक सैंपलिंग से फंडामेंटली अलग है; यह एक कॉम्प्लेक्स ऑप्टिमाइजेशन प्रोसेस है जो सच्चे रीज़निंग, सेल्फ-करेक्शन (self-correction) और किसी ऑब्जेक्टिव के आधार पर प्लानिंग करने की क्षमता देता है।

#डेवलपर्स के लिए आगे क्या है?

LLMs से World Models में ट्रांजिशन रातों-रात नहीं होगा, लेकिन AMI Labs का $1.03 billion का फंड इस टाइमलाइन को काफी तेज़ी से आगे बढ़ाता है। यहाँ बताया गया है कि इंजीनियर्स और बिल्डर्स को किस चीज़ के लिए तैयार रहना चाहिए:

API Paradigms में बदलाव: सिंपल prompt-in, text-out एंडपॉइंट्स के बजाय, अब हमें ऐसे APIs देखने को मिल सकते हैं जहाँ हम एक इनिशियल स्टेट (initial state) और एक स्पेसिफिक ऑब्जेक्टिव पास करेंगे। मॉडल इंटरनल सिमुलेशंस रन करेगा और एक वैलिडेटेड प्लान (validated plan) या गारंटीड एक्शंस का एक सीक्वेंस रिटर्न करेगा।
डिफ़ॉल्ट के रूप में Multimodality: फिजिक्स और लॉजिक को समझने के लिए World models स्वाभाविक रूप से विविध डेटा (diverse data जैसे वीडियो, स्पैटियल डेटा, काइनेमेटिक्स) पर निर्भर करते हैं। एक सच्चे world model को ट्रेन करने के लिए केवल टेक्स्ट ही काफी नहीं है। फ्यूचर APIs स्टैंडर्ड के रूप में मल्टीमोडल इनपुट्स (multimodal inputs) की उम्मीद करेंगे।
True Autonomous Agents: मौजूदा "AI agents" अक्सर LLM कॉल्स के इर्द-गिर्द बने ब्रिटल (brittle) while लूप्स होते हैं। World models, अपनी प्लानिंग करने, आउटकम्स को सिमुलेट करने और बैकट्रैक (backtrack) करने की इन-बिल्ट क्षमता के साथ, रिलायबल ऑटोनॉमस एजेंट्स के सच्चे इंजन बनेंगे जो लॉन्ग-रनिंग सॉफ्टवेयर इंजीनियरिंग या डेटा टास्क को एग्जीक्यूट करने में सक्षम होंगे।

#Conclusion

Yann LeCun का AMI Labs एक बिलियन-डॉलर का झंडा गाड़ रहा है, जो इस बात का इशारा है कि केवल Transformer पैरामीटर्स को स्केल करने का युग अब एक जरूरी आर्किटेक्चरल पिवट (architectural pivot) को रास्ता दे रहा है। डेवलपर कम्युनिटी के लिए, इसका मतलब यह है कि आज हम जो टूल्स, एब्स्ट्रेक्शन्स और एप्लिकेशंस बनाते हैं, उन्हें अगले कुछ सालों में तेज़ी से इवॉल्व (evolve) होने की जरूरत होगी।

Ichiban Tools में, हम इन डेवलपमेंट्स पर करीब से नज़र रखेंगे। जैसे ही APIs और ओपन-वेट्स (open-weights) के ज़रिए world models एक्सेसिबल हो जाएँगे, हम उनके डिटरमिनिस्टिक प्लानिंग कैपेबिलिटीज को नेक्स्ट-जनरेशन डेवलपर यूटिलिटीज में इंटीग्रेट करने के लिए तैयार रहेंगे। फंक्शनल AGI की रेस में अभी-अभी एक बहुत बड़ा स्ट्रक्चरल शिफ्ट आया है, और इंजीनियरिंग की संभावनाएं पहले से कहीं ज्यादा एक्साइटिंग हो गई हैं।