Anthropic ने किया Vercept का अधिग्रहण: Computer-Use AI Agents की बढ़ती रेस

Hero

#Introduction

Artificial intelligence का परिदृश्य तेजी से conversational interfaces से हटकर action-oriented agents की ओर बढ़ रहा है, और अब यह लड़ाई आधिकारिक तौर पर आपके डेस्कटॉप पर आ गई है। एक नाटकीय घटनाक्रम में, Anthropic ने "computer-use" AI पर फोकस करने वाले स्टार्टअप Vercept का अधिग्रहण कर लिया है। यह acquisition ठीक उस समय हुआ है जब Meta ने Vercept के एक co-founder को अपने साथ जोड़ लिया है, जो specialized AI सेक्टर में चल रही टैलेंट की भयंकर जंग को दर्शाता है।

Developers, software engineers, और product builders के लिए, यह सिर्फ कॉर्पोरेट ड्रामा नहीं है—यह एक बहुत बड़ा इंडिकेटर है कि foundational models आगे किस दिशा में जा रहे हैं। जैसे-जैसे हम Large Language Models (LLMs) से, जो सिर्फ कोड जनरेट करते हैं, autonomous systems की ओर बढ़ रहे हैं, जो सक्रिय रूप से कोड deploy कर सकते हैं, debug कर सकते हैं और जटिल सिस्टम इंटरफेस को नेविगेट कर सकते हैं, इन रणनीतिक अधिग्रहणों के पीछे की कार्यप्रणाली को समझना बेहद महत्वपूर्ण हो जाता है।

#What Happened

Vercept पिछले एक साल में AI agent स्पेस में एक डार्क हॉर्स के रूप में उभरा है। उन्होंने ऐसे highly sophisticated models बनाए हैं जो dense graphical user interfaces (GUIs) को नेविगेट कर सकते हैं, जटिल वेब एप्लिकेशन के साथ इंटरैक्ट कर सकते हैं और विभिन्न ऑपरेटिंग सिस्टम पर multi-step workflows को execute कर सकते हैं। उनका अप्रोच सिर्फ ऊपरी तौर पर screen scraping करने का नहीं था; इसमें UI elements और system states की गहरी semantic understanding शामिल थी।

हालाँकि, स्टार्टअप का रास्ता अचानक तब बदल गया जब Meta ने इसके एक प्रमुख संस्थापक (founder) को सफलतापूर्वक रिक्रूट कर लिया। बचे हुए specialized talent और underlying technology को खत्म होने या किसी competitor के हाथों में जाने देने के बजाय, Anthropic ने तेजी से कदम उठाते हुए बाकी कंपनी का अधिग्रहण कर लिया।

Anthropic के लिए computer-use AI कोई नई बात नहीं है। उन्होंने हाल ही में Claude में computer use capabilities पेश की हैं, जिससे मॉडल स्क्रीन को देख सकता है, कर्सर को मूव कर सकता है, बटन पर क्लिक कर सकता है और नेटिवली टेक्स्ट टाइप कर सकता है। Vercept की टीम को अपने साथ जोड़ना इस बात का संकेत है कि Anthropic Claude को अल्टीमेट OS-level operator बनाने के लिए पूरी तरह से तैयार है, ताकि competitors के मुकाबले उनकी बढ़त कायम रहे।

#Why It Matters

Tech giants आखिर computer-use स्टार्टअप्स के लिए इतनी कड़ी टक्कर क्यों ले रहे हैं? इसका जवाब हमारे मौजूदा API-driven आर्किटेक्चर की बुनियादी सीमाओं (limitations) में छिपा है।

ऐतिहासिक रूप से, मौजूदा workflows में AI को integrate करने के लिए bespoke API connections, custom webhook integrations, या highly specialized plugins की आवश्यकता होती थी। यह तरीका कुख्यात रूप से कमजोर (brittle) है, मेंटेन करने में महंगा है, और पूरी तरह से उन endpoints तक सीमित है जिन्हें सॉफ्टवेयर वेंडर्स एक्सपोज़ करना चुनते हैं।

Computer-use agents इस रुकावट (bottleneck) को पूरी तरह से बायपास कर देते हैं। एक इंसान की तरह ही सॉफ्टवेयर के साथ इंटरैक्ट करके—GUI के माध्यम से—AI वस्तुतः किसी भी एप्लिकेशन को ऑपरेट कर सकता है, चाहे उसमें modern API हो या न हो।

Universal Compatibility: अगर कोई इंसान इसे क्लिक कर सकता है, तो AI इसे automate कर सकता है। इससे एंटरप्राइज वैल्यू के ट्रिलियन्स ऑफ डॉलर्स अनलॉक होते हैं।
Workflow Stitching: Agents एक सिंगल coherent workflow में वेब ब्राउजर, लोकल टर्मिनल, proprietary spreadsheet, और एक legacy ईमेल क्लाइंट के बीच आसानी से मूव कर सकते हैं।
Legacy Systems: पुराने, on-premise enterprise सॉफ्टवेयर जिनमें modern REST या GraphQL APIs नहीं होते हैं, वे भी बड़े रीराइट प्रोजेक्ट्स के बिना पूरी तरह से automatable हो जाते हैं।

Anthropic के लिए, Vercept की टेक्नोलॉजी operational reliability में एक बहुत बड़ी छलांग है। मौजूदा computer-use models कभी-कभी "hallucinated clicks" का शिकार होते हैं और infinite scrolls, custom canvas renders, या hovering dropdowns जैसे highly dynamic UI elements के साथ संघर्ष करते हैं। Vercept का specialized architecture इन्ही friction points को हल करने का लक्ष्य रखता है।

#Technical Implications

Anthropic वास्तव में क्या खरीद रहा है, यह समझने के लिए हमें modern computer-use agents के आर्किटेक्चर को करीब से देखना होगा। Standard LLMs के विपरीत, जो text tokens आउटपुट करते हैं, ये सिस्टम Vision-Language-Action (VLA) models हैं।

#Navigating the Action Space

जब कोई autonomous agent स्क्रीन को देखता है, तो उसे पिक्सल के ग्रिड को actionable elements के एक semantic, interactive map में ट्रांसलेट करना होता है। इस जटिल पाइपलाइन में आमतौर पर शामिल होते हैं:

Vision-Based Parsing: Multimodal models का उपयोग करके सीधे raw screenshots से बटन, इनपुट फील्ड्स, bounding boxes, और टेक्स्ट की पहचान करना।
Accessibility Trees (a11y): डेस्कटॉप ऐप्स के DOM-equivalent स्ट्रक्चरल पदानुक्रम (hierarchy) को समझने के लिए ऑपरेटिंग सिस्टम के accessibility APIs (जैसे Windows पर UIAutomation, macOS Accessibility API, या Linux पर AT-SPI) के साथ सीधे जुड़ना।
Coordinate Mapping: एक localized माउस क्लिक या ड्रैग इवेंट को ट्रिगर करने के लिए आवश्यक सटीक X,Y pixel coordinates की गणना करना।

#Where Vercept Adds Value

यद्यपि Anthropic के Claude मॉडल्स ने अभूतपूर्व computer use पेश किया, शुरुआती iterations अक्सर ग्रिड-आधारित (grid-based) visual processing पर काफी निर्भर थे। यह computationally महंगा, लेटेंसी-भारी और high-DPI डिस्प्ले पर हल्के coordinate misalignments का शिकार हो सकता है।

Vercept के प्रोपराइटरी अप्रोच में कथित तौर पर localized visual context caching के साथ एक highly optimized hybrid DOM/a11y tree parser शामिल है। हर छोटे एक्शन के लिए पूरी 4K स्क्रीन को एनालाइज करने के बजाय, उनके मॉडल्स UI state को कुशलतापूर्वक कैश (cache) करते हैं और केवल delta updates को प्रोसेस करते हैं।

Execution logic में अंतर पर विचार करें:

Traditional AI Computer Use Pipeline:

1. Capture full screen image.
2. Send image payload to VLA model.
3. Model predicts coordinates (x: 1042, y: 450).
4. OS moves mouse and executes click.
5. Wait for visual change, repeat from Step 1.

Vercept's Optimized Pipeline:

1. Ingest initial OS accessibility tree + screen delta.
2. Map semantic intent ("Click Submit") to targeted Node ID.
3. Execute OS-level click event directly via API where possible.
4. Fallback to precise visual coordinates only if tree is missing.
5. Listen for asynchronous system UI change events to confirm success.

यह हाइब्रिड अप्रोच network latency और token consumption को नाटकीय रूप से कम करता है—जो एंटरप्राइज स्केल पर autonomous AI agents को डिप्लॉय करने में दो सबसे बड़ी बाधाएं हैं।

#What's Next

Anthropic, Meta, OpenAI और Google के बीच की यह रेस बहुत तेज गति से आगे बढ़ रही है। Meta द्वारा Vercept के एक संस्थापक को अपने साथ जोड़ना इस बात का पुख्ता संकेत देता है कि वे सक्रिय रूप से अपना खुद का competing OS-agent framework बना रहे हैं, जो आने वाले महीनों में उनके open-source Llama इकोसिस्टम के साथ गहराई से integrated होने की संभावना है।

Software engineers, frontend developers, और UI/UX designers के लिए, यह पैराडाइम शिफ्ट पेशेवर जिम्मेदारियों (professional responsibilities) का एक बिल्कुल नया सेट लेकर आता है। "Agent-ready" एप्लिकेशन बनाना जल्द ही उतना ही महत्वपूर्ण हो जाएगा जितना कि mobile responsiveness या cross-browser compatibility सुनिश्चित करना।

एक AI-driven यूजर बेस की तैयारी के लिए, डेवलपर्स को तुरंत इन बातों पर ध्यान केंद्रित करना शुरू कर देना चाहिए:

Semantic HTML Mastery: AI agents पेज स्ट्रक्चर को समझने के लिए standard, predictable HTML tags (<button>, <nav>, <main>) पर बहुत अधिक निर्भर करते हैं। जेनेरिक <div> टैग्स जिन पर JavaScript click handlers लगे हों, उनका इस्तेमाल agent की परफॉर्मेंस को काफी कम कर देगा।
Robust ARIA Implementations: Accessibility फीचर्स अब केवल मानव उपयोगकर्ताओं के लिए नहीं रह गए हैं; वे तेजी से computer-use agents के लिए प्राइमरी API surface बनते जा रहे हैं।
Predictable UI States: अत्यधिक डायनामिक, JavaScript-heavy UIs जो बिना डायरेक्ट यूज़र इंटरैक्शन के लगातार लेआउट बदलते हैं, वे agent workflows को तोड़ देंगे और टास्क के फेल होने का कारण बनेंगे।

#Conclusion

Anthropic का Vercept का रणनीतिक अधिग्रहण AI agency के लिए बढ़ती जंग में एक सधा हुआ और आक्रामक कदम है। हालाँकि Meta ने प्रमुख foundational talent को निकाल लिया, लेकिन Anthropic ने Claude की पहले से ही प्रभावशाली computer-use क्षमताओं को और अधिक मजबूत करने के लिए underlying technology, operational pipeline, और बाकी इंजीनियरिंग टीम को सफलतापूर्वक सुरक्षित कर लिया है।

हम तेजी से उस युग से दूर जा रहे हैं जहाँ हम सिर्फ AI को हमारे लिए कोड लिखने का प्रॉम्प्ट देते हैं, और एक ऐसे आकर्षक नए युग में प्रवेश कर रहे हैं जहाँ हम AI को सीधे हमारी मशीनों पर काम करने के लिए कहते हैं। कल के प्लेटफॉर्म बनाने वाले डेवलपर्स के लिए, संदेश बिल्कुल स्पष्ट है: मशीनें अब सिर्फ इंटरनेट को पढ़ नहीं रही हैं—वे सक्रिय रूप से यह सीख रही हैं कि उस पर क्लिक कैसे किया जाए।