Nvidia ने Vera CPU लॉन्च किया, जो Agentic AI के लिए Purpose-Built है

Hero

Artificial intelligence हार्डवेयर लैंडस्केप में ऐतिहासिक रूप से एक ही नैरेटिव का दबदबा रहा है: ज्यादा GPU compute का मतलब बेहतर AI है। हालांकि यह विशाल foundational models को ट्रेन करने और parallelized inference को प्रोसेस करने के लिए सच है, लेकिन पैराडाइम तेजी से बदल रहा है। GTC 2026 में, Nvidia ने इस बदलाव को पहचानते हुए Vera CPU का आधिकारिक लॉन्च किया, जो एक next-generation प्रोसेसर है जिसे एक बहुत ही विशिष्ट वर्कलोड के लिए ग्राउंड-अप से डिज़ाइन किया गया है: Agentic AI।

Ichiban Tools में डेवलपर यूटिलिटीज बनाने वाले डेवलपर्स के रूप में, हम इस बारे में सोचने में काफी समय बिताते हैं कि AI agents दुनिया के साथ कैसे इंटरैक्ट करते हैं। यह अनाउंसमेंट agentic पैराडाइम का एक बहुत बड़ा वैलिडेशन है। आइए इस बात पर गहराई से नज़र डालें कि Nvidia ने अभी क्या लॉन्च किया है, यह AI हार्डवेयर डिज़ाइन में एक मौलिक बदलाव क्यों दर्शाता है, और सॉफ्टवेयर इंजीनियरिंग के भविष्य के लिए इसका क्या अर्थ है।

#क्या हुआ (What Happened)

अत्यधिक सफल Grace CPU आर्किटेक्चर के बाद, Vera CPU सिर्फ एक iterative spec bump नहीं है; यह एक फंडामेंटल आर्किटेक्चरल रीअलाइनमेंट है। जहां Grace CPU को मुख्य रूप से पावर-हंग्री Hopper GPUs को डेटा फीड करने के लिए डिज़ाइन किया गया था, वहीं Vera को autonomous logic के प्राइमरी ड्राइवर के रूप में पोज़िशन किया गया है।

Nvidia, Vera CPU को मॉडर्न AI फैक्ट्री के "compute backbone" के रूप में देखता है। यह व्यापक Vera Rubin platform का एक कोर कंपोनेंट है, जिसे Rubin GPUs और BlueField-4 DPUs के साथ सहजता से पेयर करने के लिए डिज़ाइन किया गया है ताकि एक ऐसा इंफ्रास्ट्रक्चर तैयार किया जा सके जो दसियों हज़ार concurrent, कॉम्प्लेक्स agentic environments को सस्टेन करने में सक्षम हो।

#यह मायने क्यों रखता है: Agentic Bottleneck

Vera की आवश्यकता को समझने के लिए, हमें यह देखना होगा कि Agentic AI पारंपरिक generative AI से कैसे अलग है।

जब आप किसी स्टैंडर्ड Large Language Model (LLM) को प्रॉम्प्ट देते हैं, तो वर्कलोड भारी रूप से parallelized matrix multiplication होता है—एक ऐसा टास्क जो GPUs के लिए ही बना है। हालाँकि, एक AI agent सिर्फ टेक्स्ट जनरेट करने से कहीं अधिक करता है। यह "सोचता" है और "एक्ट" करता है। इसे अपने वर्कफ़्लो के ऑर्केस्ट्रेशन फेज़ को मैनेज करने के लिए एक हाई-परफॉरमेंस CPU की आवश्यकता होती है। Autonomous agents के लिए बॉटलनेक पूरी तरह से अलग हैं:

Tool Execution: Agents Python लिखते हैं, SQL क्वेरीज़ एग्जीक्यूट करते हैं, टर्मिनल environments के साथ इंटरैक्ट करते हैं, और बाहरी API कॉल्स करते हैं। ये सीरियल, सिंगल-थ्रेडेड ऑपरेशन्स हैं जो GPUs पर चोक हो जाते हैं लेकिन हाई-फ्रीक्वेंसी, अत्यधिक ऑप्टिमाइज़्ड CPU cores पर बेहतरीन परफॉर्म करते हैं।
Reasoning & Planning: Multi-step reasoning पैराडाइम्स, जैसे Chain-of-Thought या reinforcement learning पाइपलाइन्स, को भारी मात्रा में branchy logic की आवश्यकता होती है।
KV-Cache Management: Long-context कन्वर्सेशन्स और multi-turn agentic वर्कफ़्लोज़ विशाल Key-Value (KV) कैशे जनरेट करते हैं। सिस्टम मेमोरी में इस कैशे को एफिशिएंटली स्टोर, रिट्रीव और मैनेज करने के लिए अभूतपूर्व मेमोरी बैंडविड्थ की आवश्यकता होती है।

इन अत्यधिक सीरियल, स्टेट-डिपेंडेंट ऑपरेशन्स को एक स्पेशलाइज़्ड प्रोसेसर पर ऑफ़लोड करके, ओवरऑल सिस्टम महंगे GPU साइकल्स को उन टास्क पर लॉक करने से बच जाता है जिन्हें एग्जीक्यूट करने में वे मूल रूप से खराब हैं।

#टेक्निकल इम्प्लिकेशन्स

अंदरूनी तौर पर, Vera CPU कई शानदार आर्किटेक्चरल डिसीज़न्स लेकर आता है। आइए डेवलपर्स और सिस्टम इंजीनियर्स के लिए सबसे प्रभावशाली स्पेसिफिकेशन्स का ब्रेकडाउन करते हैं।

स्पेसिफिकेशन	डिटेल्स	Agentic Workloads पर प्रभाव
Cores	88 कस्टम Olympus Cores (Armv9.2)	अलग-अलग एजेंट environments को आइसोलेट करने के लिए भारी concurrency।
Threading	Spatial Multithreading	deterministic latency के साथ प्रति कोर दो टास्क चलाता है, जो रीयल-टाइम एजेंट रिस्पॉन्स के लिए महत्वपूर्ण है।
Memory Capacity	1.5 TB LPDDR5X तक	विशाल context windows को सीधे CPU पर कैश करने की अनुमति देता है।
Bandwidth	1.2 TB/s	Grace की तुलना में 2X बैंडविड्थ, रैपिड टूल उपयोग के दौरान डेटा स्टार्वेशन को लगभग खत्म कर देता है।
Interconnect	NVLink-C2C (1.8 TB/s)	Rubin GPUs के साथ सीमलेस, कोहेरेंट मेमोरी शेयरिंग।

#Spatial Multithreading और Olympus Cores

88 कस्टम-डिज़ाइन किए गए Olympus cores का इंट्रोडक्शन एक महत्वपूर्ण मील का पत्थर है। ये Armv9.2 कम्पेटिबल cores एक नई तकनीक का उपयोग करते हैं जिसे Nvidia Spatial Multithreading कहता है। पारंपरिक Simultaneous Multithreading (SMT) के विपरीत, जो वेरिएबल लेटेंसी ला सकता है क्योंकि थ्रेड्स एग्जीक्यूशन यूनिट्स के लिए कम्पलीट करते हैं, Spatial Multithreading प्रेडिक्टेबल, deterministic latency की गारंटी देता है। जब कोई एजेंट कोई क्रिटिकल सिस्टम कमांड एग्जीक्यूट कर रहा होता है या API पेलोड का इंतज़ार कर रहा होता है, तो deterministic latency माइक्रो-स्टटर्स को रोकती है जो हज़ार-स्टेप वाले ऑटोनोमस टास्क में बड़े डिले का कारण बन सकते हैं।

#अभूतपूर्व Memory Bandwidth

Agentic वर्कफ़्लोज़ के लिए, मेमोरी बैंडविड्थ अक्सर साइलेंट किलर होती है। Vera 1.2 TB/s की आश्चर्यजनक स्पीड पर चलने वाली 1.5 TB तक की LPDDR5X मेमोरी का दावा करता है। यह CPU को स्थानीय स्तर पर विशाल KV-कैशे मेंटेन करने की अनुमति देता है, जिससे CPU और GPU के बीच लगातार कॉन्टेक्स्ट को आगे-पीछे शफल करने की आवश्यकता कम हो जाती है। यह पारंपरिक रैक-स्केल CPUs की तुलना में agentic वर्कफ़्लोज़ में 50% परफॉरमेंस इनक्रीस में ट्रांसलेट होता है, जबकि साथ ही 2X परफॉरमेंस-पर-वॉट भी डिलीवर करता है।

#आगे क्या: Vera CPU Rack

Nvidia सिर्फ इंडिविजुअल चिप्स नहीं बेच रहा है; वे रैक-स्केल इंफ्रास्ट्रक्चर बेच रहे हैं। लिक्विड-कूल्ड Vera CPU Rack 256 Vera CPUs को सिंगल डिप्लॉयमेंट में इंटीग्रेट करता है। Nvidia का दावा है कि यह इंफ्रास्ट्रक्चर 22,500 से अधिक concurrent CPU environments को सस्टेन कर सकता है।

एंटरप्राइज़ ऐप्लिकेशन्स के लिए, यह एक 'Holy Grail' है। इसका मतलब है कि एक सिंगल रैक ऑटोनोमस सॉफ्टवेयर इंजीनियर्स, डेटा एनालिस्ट्स, या कस्टमर सपोर्ट एजेंट्स की एक विशाल फ्लीट को होस्ट कर सकता है, जो सभी अत्यधिक आइसोलेटेड, डिटरमिनिस्टिक environments में स्वतंत्र रूप से काम कर सकते हैं।

#निष्कर्ष

Vera CPU का लॉन्च एक स्पष्ट संकेत है कि हार्डवेयर इंडस्ट्री पैसिव AI असिस्टेंट्स से एक्टिव AI एजेंट्स की ओर हो रहे बदलाव को पहचानती है। टूल एग्जीक्यूशन, branchy logic, और भारी KV-cache मैनेजमेंट के इर्द-गिर्द एक आर्किटेक्चर को purpose-build करके, Nvidia ने agentic एरा के आसन्न कंप्यूट बॉटलनेक को सॉल्व कर दिया है।

हम में से उन लोगों के लिए जो डेवलपर्स के लिए टूल्स और यूटिलिटीज़ बना रहे हैं, Vera CPU अधिक जटिल, ऑटोनोमस, और विश्वसनीय सॉफ्टवेयर बनाने के लिए आवश्यक हार्डवेयर फाउंडेशन प्रदान करता है। GPU शायद AI क्रांति का इंजन बना रह सकता है, लेकिन Vera के साथ, Nvidia ने आधिकारिक तौर पर स्टीयरिंग व्हील बना लिया है।