Gemini 3.5: Agentic Action का युग आ गया है

Hero

पिछले कुछ सालों से, सॉफ्टवेयर इंजीनियरिंग कम्युनिटी का पूरा ध्यान जनरेशन (generation) पर टिका हुआ था। हमने LLMs को प्रॉम्प्ट देकर कोड लिखवाने, टेक्स्ट जनरेट करने और लॉग्स को समराइज (summarize) करने के लिए बेहतरीन पाइपलाइन्स बनाईं। लेकिन जैसा कि कोई भी सीनियर इंजीनियर जिसने जटिल LangChain इम्प्लीमेंटेशन्स या नाज़ुक कस्टम execution लूप्स के साथ माथापच्ची की है, आपको बताएगा कि टेक्स्ट जनरेट करना और असल में काम पूरा करना, दोनों में बहुत फर्क है।

आज, Google ने Gemini 3.5: frontier intelligence with action के ऐलान के साथ इस गैप को भर दिया है। यह रिलीज़ सिर्फ कोई पैरामीटर बंप (parameter bump) या छोटा-मोटा कॉन्टेक्स्ट विंडो (context window) एक्सपेंशन नहीं है; यह नेटिव एजेंटिक बिहेवियर (agentic behavior) की ओर एक बहुत बड़ा आर्किटेक्चरल बदलाव है।

यहाँ Ichiban Tools में, हमारा पूरा दिन ऐसे यूटिलिटीज़ (utilities) बनाने में जाता है जो डेवलपर्स का समय बचा सकें। हमने LLMs को अपने वर्कफ्लोज़ में गहराई से इंटीग्रेट किया है। Gemini 3.5 के साथ, पैराडाइम (paradigm) बदल गया है—अब हम AI को ऑर्केस्ट्रेट (orchestrate) नहीं करते, बल्कि AI वर्कफ़्लो को ऑर्केस्ट्रेट करता है।

#क्या हुआ है

Google ने Gemini 3.5 फैमिली का पर्दाफाश किया है, जिसमें "intelligence with action" पर ज़ोर दिया गया है। हालाँकि Gemini के पिछले वर्जन्स (जैसे 1.5 Pro) में बहुत बड़े कॉन्टेक्स्ट विंडोज़ और गजब की मल्टीमोडल कैपेबिलिटीज (multimodal capabilities) थीं, लेकिन वे फिर भी execution स्टेट को मैनेज करने के लिए काफी हद तक डेवलपर पर ही निर्भर थे। अगर मॉडल को किसी डेटाबेस में सर्च करना हो, किसी फाइल को रीड करना हो और कोई फैसला लेना हो, तो आपकी एप्लिकेशन के कोड को ही हर एक फंक्शन कॉल को हैंडल करना पड़ता था, JSON को पार्स (parse) करना पड़ता था और फिर से कॉन्टेक्स्ट को मॉडल को वापस देना पड़ता था।

Gemini 3.5 अपने साथ एक ऑनबोर्ड execution इंजन लेकर आया है। अब मॉडल लॉन्ग-हॉराइजन प्लानिंग (long-horizon planning) और खुद-ब-खुद (autonomous) टूल्स का इस्तेमाल करने में सक्षम है। इस अनाउंसमेंट के कुछ अहम फीचर्स ये हैं:

नेटिव मल्टी-स्टेप टूल ऑर्केस्ट्रेशन (Native Multi-Step Tool Orchestration): मॉडल किसी टूल को कॉल कर सकता है, उसके रिजल्ट को इवैल्यूएट (evaluate) कर सकता है, और यह तय कर सकता है कि अगला कदम क्या होना चाहिए—और यह सब बिना होस्ट एप्लिकेशन को हर कदम पर कंट्रोल वापस दिए होता है।
एक्शन-ओरिएंटेड कॉन्टेक्स्ट कैशिंग (Action-Oriented Context Caching): "एक्शन लूप" के दौरान स्टेट (State) को इंटरनली ही मेन्टेन किया जाता है, जिससे जटिल और मल्टी-टर्न एजेंटिक वर्कफ्लोज़ की लेटेंसी (latency) और टोकन ओवरहेड में भारी कमी आती है।
बेहतर फेलियर रिकवरी (Enhanced Failure Recovery): अगर कोई टूल कॉल फेल हो जाती है (जैसे, कोई API 404 रिटर्न कर दे या शेल कमांड में सिंटैक्स एरर आ जाए), तो Gemini 3.5 को ऐसे ट्रेन किया गया है कि वह उस एरर को खुद पढ़ ले, अपने पैरामीटर्स को एडजस्ट करे और दोबारा ट्राई (retry) करे—बिल्कुल किसी इंसान इंजीनियर की तरह।

#यह क्यों मायने रखता है

अगर आप डेवलपर टूल्स या इंटरनल प्लेटफॉर्म्स बना रहे हैं, तो आप ब्रिटल (brittle) AI वर्कफ्लोज़ का दर्द अच्छी तरह समझते होंगे। आप एक मॉडल को कोई काम करने के लिए प्रॉम्प्ट देते हैं, उसे फंक्शन्स का एक सूट पकड़ाते हैं, और बस दुआ करते हैं कि वह किसी ज़रूरी पैरामीटर को हैलूसिनेट (hallucinate) ना कर दे या फेल हो रहे API कॉल्स के किसी इनफिनिट लूप में ना फँस जाए।

Gemini 3.5 एजेंटिक सॉफ्टवेयर बनाने के इकोनॉमिक्स को ही बदल देता है। "ReAct" (Reasoning and Acting) लूप को सीधे मॉडल की नेटिव कैपेबिलिटीज में धकेल कर, डेवलपर्स अब ऑर्केस्ट्रेशन कोड की हजारों लाइनों को हटा सकते हैं।

इसका मतलब है ज़्यादा रिलायबिलिटी (reliability), कम लेटेंसी और AI लूप्स की देखभाल (babysitting) करने में खर्च होने वाले इंजीनियरिंग टाइम की बचत। पहली बार, हम कॉन्फिडेंस के साथ कोई हाई-लेवल ऑब्जेक्टिव सौंप सकते हैं (जैसे, "इस डायरेक्टरी को नए लॉगिंग लाइब्रेरी का इस्तेमाल करने के लिए रिफैक्टर करो") और मॉडल पर भरोसा कर सकते हैं कि वह सारे छोटे-छोटे फैसले खुद ले लेगा: फाइल्स खोजना, उनमें एडिट्स करना, लिंटर (linter) रन करना, और उसके बाद आने वाले सिंटैक्स एरर्स को फिक्स करना।

#टेक्निकल असर (Technical Implications)

आर्किटेक्चरल नजरिए से देखें, तो Gemini 3.5 को अपनाने के लिए हमें यह फिर से सोचना होगा कि हम API के साथ कैसे इंटरफ़ेस करते हैं। आइए कुछ ऐसे टेक्निकल बदलावों पर नज़र डालें जिन्हें आपको ध्यान में रखना होगा।

#1. हाई-लेवल डिक्लेरेटिव कैपेबिलिटीज (High-Level Declarative Capabilities)

हर छोटे-छोटे एक्शन के लिए माइक्रो-फंक्शन्स डिफाइन करने के बजाय, अब आप Gemini 3.5 को ब्रॉडर कैपेबिलिटीज (broader capabilities) दे सकते हैं। नया API नेटिवली सपोर्टेड एनवायरनमेंट्स (जैसे फाइल सिस्टम एक्सेस या शेल execution) लेकर आता है जिन्हें आप सेफली सैंडबॉक्स (sandbox) कर सकते हैं।

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });

// The new agentic paradigm
const response = await ai.models.executeTask({
  model: 'gemini-3.5-pro',
  objective: 'Migrate the legacy CSS files in /styles to Tailwind classes in the React components.',
  sandbox: {
    type: 'local_container',
    permissions: ['read_write_workspace', 'run_tests']
  },
  config: {
    maxAutonomousTurns: 15,
    onRequiresApproval: (plan) => console.log("Approval needed for:", plan)
  }
});

// The response contains the full trail of actions taken, not just text.
console.table(response.actionTrail);

#2. टोकन राउंड-ट्रिप्स में भारी कमी

पहले, एक 5-स्टेप एक्शन के लिए इन्फेरेंस एंडपॉइंट (inference endpoint) पर 5 अलग-अलग HTTP रिक्वेस्ट्स भेजनी पड़ती थीं, और हर बार पूरे जमा हुए कॉन्टेक्स्ट विंडो को भी पास करना पड़ता था। Gemini 3.5 के स्टेटफुल (stateful) execution का मतलब है कि अब आप बस एक रिक्वेस्ट करते हैं। मॉडल बीच के रीज़निंग (reasoning) स्टेप्स को अंदर ही हैंडल करता है, और सिर्फ फाइनल रिजल्ट वापस करता है (या तब रुकता है जब उसे अप्रूवल की जरूरत होती है)। यह कॉस्ट और लेटेंसी के मामले में एक बहुत बड़ी जीत है।

#3. डिटरमिनिस्टिक फॉलबैक्स (Deterministic Fallbacks)

इस रिलीज़ में जो सबसे इम्प्रेसिव टेक्निकल खासियत बताई गई है, वह है मॉडल की डिटरमिनिस्टिक फॉलबैक्स पर आसानी से शिफ्ट होने की खूबी। अगर कोई ऑब्जेक्टिव बहुत ही एंबिगुअस (ambiguous) है, तो Gemini 3.5 तुक्का मारकर स्टेट (state) खराब करने के बजाय अपने आप एक सटीक क्लेरिफिकेशन सवाल जनरेट कर लेगा।

#Ichiban Tools के लिए आगे क्या है

हम पहले से ही अर्ली एक्सेस एंडपॉइंट्स (early access endpoints) के साथ एक्सपेरिमेंट कर रहे हैं। आप बहुत जल्द पूरे Ichiban Tools इकोसिस्टम में Gemini 3.5 का गहरा इंटीग्रेशन देख सकेंगे:

CLI में सुधार (CLI Enhancements): हमारे CLI टूल्स सिंगल-टर्न असिस्टेंट्स से बदलकर ऑटोनॉमस एजेंट्स (autonomous agents) बन जाएंगे। आप CLI से कह सकेंगे कि "Webpack बिल्ड फेलियर को डायग्नोज करो और फिक्स करो," और यह पूरी तरह खुद से लॉग्स को इन्वेस्टिगेट करेगा, कॉन्फ़िगरेशन्स में बदलाव करेगा, और फिक्स को वेरीफाई करेगा।
स्मार्टर एडिटर्स (Smarter Editors): हमारे PDF, Audio और Video वर्कफ्लोज़ अब मैक्रो-कमांड्स को सपोर्ट करेंगे। मैन्युअली 10 अलग-अलग फिल्टर्स या एडिट्स अप्लाई करने के बजाय, आप सीधा एक हाई-लेवल डायरेक्टिव दे सकते हैं ("ऑडियो को नॉर्मलाइज करो, डेड एयर को काट दो और चैप्टर मार्कर्स जनरेट करो") और इसे खुद काम करते हुए देख सकते हैं।

#निष्कर्ष (Conclusion)

Gemini 3.5 की रिलीज़ एजेंटिक युग (agentic era) की शुरुआत है। हम AI को महज़ बातचीत के खिलौने या सिंपल ऑटो-कम्प्लीट इंजन (autocomplete engine) मानने के दौर से आगे बढ़ रहे हैं। AI अब इंजीनियरिंग लाइफसाइकिल में एक एक्टिव साथी बन गया है—एक ऐसा सिस्टम जो एक्शन्स लेने, फेलियर से रिकवर करने और किसी काम को पूरा करने की ताकत रखता है।

अब बॉयलरप्लेट (boilerplate) AI ऑर्केस्ट्रेटर्स लिखना बंद करने और असली टूल्स बनाने का वक्त आ गया है। नया मैदान खुल चुका है। आइए काम पर लगें।