Anthropic übernimmt Vercept: Das eskalierende Rennen um KI-Agenten zur Computerbedienung

Hero

#Einleitung

Die Landschaft der künstlichen Intelligenz verlagert sich rasant von konversationsbasierten Schnittstellen hin zu handlungsorientierten Agenten, und das Schlachtfeld hat sich offiziell auf Ihren Desktop verlagert. In einer dramatischen Wendung der Ereignisse hat Anthropic Vercept übernommen, ein Startup, das sich stark auf "Computer-Use"-KI fokussiert hat. Die Übernahme erfolgt unmittelbar nachdem Meta einen der Mitgründer von Vercept abgeworben hat, was den erbitterten Kampf um Talente unterstreicht, der derzeit im spezialisierten KI-Sektor tobt.

Für Entwickler, Software-Ingenieure und Produktentwickler ist dies nicht nur ein Unternehmensdrama – es ist ein massiver Indikator dafür, wohin sich Foundation Models als Nächstes entwickeln. Während wir den Übergang von Large Language Models (LLMs), die lediglich Code generieren, hin zu autonomen Systemen vollziehen, die komplexe Systemschnittstellen aktiv bedienen, debuggen und navigieren können, wird das Verständnis der Mechanismen hinter diesen strategischen Übernahmen absolut entscheidend.

#Was passiert ist

Vercept trat im vergangenen Jahr als Geheimtipp im Bereich der KI-Agenten auf und entwickelte hochgradig ausgefeilte Modelle, die in der Lage sind, durch dichte grafische Benutzeroberflächen (GUIs) zu navigieren, mit komplexen Webanwendungen zu interagieren und mehrstufige Workflows über verschiedene Betriebssysteme hinweg auszuführen. Ihr Ansatz beschränkte sich nicht nur auf oberflächliches Screen-Scraping; er beinhaltete ein tiefes semantisches Verständnis von UI-Elementen und Systemzuständen.

Die Entwicklung des Startups nahm jedoch eine abrupte Wendung, als Meta erfolgreich einen seiner wichtigsten Gründer rekrutierte. Anstatt zuzulassen, dass sich die verbleibenden spezialisierten Talente und die zugrundeliegende Technologie auflösen oder in die Hände eines Konkurrenten fallen, handelte Anthropic schnell und übernahm den Rest des Unternehmens.

Anthropic ist im Bereich der Computer-Use-KI kein unbeschriebenes Blatt. Sie haben kürzlich Computerbedienungsfunktionen für Claude eingeführt, die es dem Modell ermöglichen, nativ auf einen Bildschirm zu schauen, einen Cursor zu bewegen, auf Schaltflächen zu klicken und Text einzugeben. Das Vercept-Team ins Haus zu holen, signalisiert, dass Anthropic seine Bemühungen aggressiv verdoppelt, um Claude zum ultimativen Operator auf OS-Ebene zu machen und sicherzustellen, dass sie ihren Vorsprung gegenüber der Konkurrenz behaupten.

#Warum das wichtig ist

Warum kämpfen Tech-Giganten mit harten Bandagen um Startups im Bereich der Computerbedienung? Die Antwort liegt in den grundlegenden Einschränkungen unserer aktuellen API-gesteuerten Architekturen.

Historisch gesehen erforderte die Integration von KI in bestehende Workflows maßgeschneiderte API-Anbindungen, benutzerdefinierte Webhook-Integrationen oder hochspezialisierte Plugins. Dieser Ansatz ist bekanntermaßen fehleranfällig, teuer in der Wartung und streng auf die Endpunkte beschränkt, die Softwareanbieter explizit zur Verfügung stellen.

Computer-Use-Agenten umgehen diesen Flaschenhals vollständig. Indem sie mit Software genau wie ein Mensch interagieren – über die GUI –, kann eine KI buchstäblich jede Anwendung bedienen, unabhängig davon, ob sie über eine moderne API verfügt.

Universelle Kompatibilität: Wenn ein Mensch darauf klicken kann, kann die KI es automatisieren. Dies erschließt Unternehmenswerte in Billionenhöhe, die zuvor blockiert waren.
Workflow Stitching: Agenten können in einem einzigen kohärenten Workflow nahtlos zwischen einem Webbrowser, einem lokalen Terminal, einer proprietären Tabellenkalkulation und einem Legacy-E-Mail-Client wechseln.
Legacy-Systeme: Ältere, lokale Unternehmenssoftware (On-Premise), der moderne REST- oder GraphQL-APIs fehlen, wird plötzlich vollständig automatisierbar, ohne dass massive Rewrite-Projekte erforderlich sind.

Für Anthropic stellt die Technologie von Vercept einen entscheidenden Sprung in der betrieblichen Zuverlässigkeit dar. Aktuelle Computer-Use-Modelle leiden gelegentlich unter "halluzinierten Klicks" und haben Probleme mit hochdynamischen UI-Elementen wie Infinite Scrolls, benutzerdefinierten Canvas-Rendern oder Hover-Dropdowns. Die spezialisierte Architektur von Vercept zielt darauf ab, genau diese Reibungspunkte zu lösen.

#Technische Implikationen

Um zu verstehen, was Anthropic eigentlich kauft, müssen wir einen Blick unter die Haube auf die Architektur moderner Computer-Use-Agenten werfen. Im Gegensatz zu Standard-LLMs, die Text-Token ausgeben, handelt es sich bei diesen Systemen um Vision-Language-Action (VLA) Modelle.

Wenn ein autonomer Agent auf einen Bildschirm schaut, muss er ein Pixelraster in eine semantische, interaktive Karte von bedienbaren Elementen übersetzen. Diese komplexe Pipeline umfasst typischerweise:

Vision-basiertes Parsing: Die Verwendung multimodaler Modelle, um Schaltflächen, Eingabefelder, Bounding Boxes und Text direkt aus rohen Screenshots zu identifizieren.
Accessibility Trees (a11y): Das direkte Einhaken in die Accessibility-APIs des Betriebssystems (wie UIAutomation unter Windows, macOS Accessibility API oder AT-SPI unter Linux), um die dem DOM entsprechende strukturelle Hierarchie von Desktop-Apps zu verstehen.
Koordinaten-Mapping: Die Berechnung der exakten X,Y-Pixelkoordinaten, die erforderlich sind, um ein lokalisiertes Mausklick- oder Drag-Ereignis auszulösen.

#Wo Vercept Mehrwert bietet

Während die Claude-Modelle von Anthropic bahnbrechende Computerbedienung einführten, verließen sich frühe Iterationen oft stark auf rasterbasierte visuelle Verarbeitung. Dies kann rechenintensiv und latenzbehaftet sein und bei hochauflösenden Displays (High-DPI) zu leichten Koordinatenverschiebungen führen.

Der proprietäre Ansatz von Vercept umfasste Berichten zufolge einen hochoptimierten, hybriden DOM/a11y-Tree-Parser in Kombination mit lokalisiertem, visuellem Context Caching. Anstatt für jede einzelne granulare Aktion den gesamten 4K-Bildschirm zu analysieren, cachen ihre Modelle den UI-Zustand effizient und verarbeiten nur Delta-Updates.

Betrachten Sie den Unterschied in der Ausführungslogik:

Traditional AI Computer Use Pipeline:

1. Capture full screen image.
2. Send image payload to VLA model.
3. Model predicts coordinates (x: 1042, y: 450).
4. OS moves mouse and executes click.
5. Wait for visual change, repeat from Step 1.

Vercept's Optimized Pipeline:

1. Ingest initial OS accessibility tree + screen delta.
2. Map semantic intent ("Click Submit") to targeted Node ID.
3. Execute OS-level click event directly via API where possible.
4. Fallback to precise visual coordinates only if tree is missing.
5. Listen for asynchronous system UI change events to confirm success.

Dieser hybride Ansatz reduziert die Netzwerklatenz und den Token-Verbrauch drastisch – zwei der größten Hürden beim Einsatz autonomer KI-Agenten im Unternehmensmaßstab.

#Wie es weitergeht

Das Rennen zwischen Anthropic, Meta, OpenAI und Google beschleunigt sich in einem atemberaubenden Tempo. Metas Abwerbung eines Vercept-Gründers deutet stark darauf hin, dass sie aktiv an einem eigenen konkurrierenden OS-Agenten-Framework bauen, das in den kommenden Monaten wahrscheinlich tief in ihr Open-Source-Llama-Ökosystem integriert wird.

Für Software-Ingenieure, Frontend-Entwickler und UI/UX-Designer bringt dieser Paradigmenwechsel ein völlig neues Set an beruflichen Verantwortlichkeiten mit sich. Der Bau "Agenten-bereiter" (agent-ready) Anwendungen wird bald genauso wichtig werden wie die Sicherstellung von Mobile Responsiveness oder Cross-Browser-Kompatibilität.

Um sich auf eine KI-gesteuerte Nutzerbasis vorzubereiten, sollten sich Entwickler ab sofort auf Folgendes konzentrieren:

Beherrschung von semantischem HTML: KI-Agenten verlassen sich stark auf standardisierte, vorhersehbare HTML-Tags (<button>, <nav>, <main>), um die Seitenstruktur zu verstehen. Das Verlassen auf generische <div>-Tags mit angehängten JavaScript-Klick-Handlern wird die Leistung der Agenten stark beeinträchtigen.
Robuste ARIA-Implementierungen: Barrierefreiheitsfunktionen sind nicht mehr nur für menschliche Nutzer gedacht; sie entwickeln sich rasant zur primären API-Oberfläche für Computer-Use-Agenten.
Vorhersehbare UI-Zustände: Hochdynamische, JavaScript-lastige UIs, die ohne direkte Benutzerinteraktion ständig ihr Layout ändern, werden Agenten-Workflows unterbrechen und zum Scheitern von Aufgaben führen.

#Fazit

Die strategische Übernahme von Vercept durch Anthropic ist ein kalkulierter, aggressiver Schlag im eskalierenden Krieg um die Handlungsfähigkeit von KI (AI agency). Während es Meta gelang, wichtiges Gründungstalent abzuziehen, hat sich Anthropic erfolgreich die zugrundeliegende Technologie, die operative Pipeline und das verbleibende Engineering-Team gesichert, um Claudes ohnehin schon beeindruckende Computerbedienungsfähigkeiten drastisch zu stärken.

Wir bewegen uns rasant von einer Ära weg, in der wir KI einfach anweisen, Code für uns zu schreiben, und treten in eine faszinierende neue Ära ein, in der wir KI bitten, die Arbeit direkt auf unseren Maschinen zu erledigen. Für Entwickler, die die Plattformen von morgen bauen, ist die Botschaft unmissverständlich klar: Die Maschinen lesen nicht mehr nur das Internet – sie lernen aktiv, wie man darauf klickt.