Anthropic acquiert Vercept : l'escalade dans la course aux agents IA utilisant l'ordinateur

Hero

#Introduction

Le paysage de l'intelligence artificielle passe rapidement des interfaces conversationnelles aux agents orientés vers l'action, et le champ de bataille s'est officiellement déplacé sur votre bureau. Dans un revirement spectaculaire, Anthropic a acquis Vercept, une startup extrêmement concentrée sur l'IA d'« utilisation de l'ordinateur » (computer-use). Cette acquisition survient juste après que Meta a débauché l'un des cofondateurs de Vercept, soulignant la féroce guerre des talents qui fait actuellement rage dans le secteur spécialisé de l'IA.

Pour les développeurs, les ingénieurs logiciels et les créateurs de produits, il ne s'agit pas seulement d'un drame d'entreprise : c'est un indicateur massif de la direction que prennent les modèles de fondation. Alors que nous passons des grands modèles de langage (LLMs) qui se contentent de générer du code à des systèmes autonomes capables de déployer, de déboguer et de naviguer activement dans des interfaces système complexes, comprendre les mécanismes derrière ces acquisitions stratégiques devient absolument crucial.

#Ce qu'il s'est passé

Vercept s'est imposé au cours de l'année écoulée comme un outsider dans l'espace des agents IA, construisant des modèles hautement sophistiqués capables de naviguer dans des interfaces graphiques (GUIs) denses, d'interagir avec des applications web complexes et d'exécuter des flux de travail en plusieurs étapes sur différents systèmes d'exploitation. Leur approche ne se limitait pas à du screen scraping superficiel ; elle impliquait une compréhension sémantique profonde des éléments de l'interface utilisateur et des états du système.

Cependant, la trajectoire de la startup a brusquement changé lorsque Meta a réussi à recruter l'un de ses fondateurs clés. Plutôt que de laisser les talents spécialisés restants et la technologie sous-jacente se dissoudre ou tomber entre les mains d'un concurrent, Anthropic a agi rapidement pour acquérir le reste de l'entreprise.

Anthropic n'est pas novice en matière d'IA d'utilisation de l'ordinateur. Ils ont récemment introduit des capacités d'utilisation de l'ordinateur dans Claude, permettant au modèle de regarder un écran, de déplacer un curseur, de cliquer sur des boutons et de taper du texte de manière native. L'intégration de l'équipe de Vercept en interne indique qu'Anthropic redouble d'efforts pour faire de Claude l'opérateur ultime au niveau de l'OS, s'assurant ainsi de maintenir son avance sur ses concurrents.

#Pourquoi c'est important

Pourquoi les géants de la technologie se battent-ils bec et ongles pour des startups spécialisées dans l'utilisation de l'ordinateur ? La réponse réside dans les limites fondamentales de nos architectures actuelles basées sur les API.

Historiquement, l'intégration de l'IA dans les flux de travail existants nécessitait des connexions API sur mesure, des intégrations de webhooks personnalisées ou des plugins hautement spécialisés. Cette approche est notoirement fragile, coûteuse à maintenir et strictement limitée par les points d'accès (endpoints) que les éditeurs de logiciels choisissent explicitement d'exposer.

Les agents d'utilisation de l'ordinateur contournent complètement ce goulot d'étranglement. En interagissant avec les logiciels exactement comme le fait un humain, via l'interface graphique (GUI), une IA peut utiliser littéralement n'importe quelle application, peu importe qu'elle dispose ou non d'une API moderne.

Compatibilité universelle : Si un humain peut cliquer dessus, l'IA peut l'automatiser. Cela débloque des milliers de milliards de dollars de valeur d'entreprise verrouillée.
Enchaînement des flux de travail : Les agents peuvent passer de manière transparente d'un navigateur web à un terminal local, un tableur propriétaire et un ancien client de messagerie au sein d'un seul flux de travail cohérent.
Systèmes patrimoniaux (Legacy) : Les anciens logiciels d'entreprise sur site (on-premise) qui manquent d'API REST ou GraphQL modernes deviennent soudainement entièrement automatisables sans nécessiter de projets de réécriture massifs.

Pour Anthropic, la technologie de Vercept représente un bond en avant critique en matière de fiabilité opérationnelle. Les modèles actuels d'utilisation de l'ordinateur souffrent occasionnellement de « clics hallucinés » et ont des difficultés avec les éléments d'interface utilisateur hautement dynamiques tels que les défilements infinis, les rendus sur canvas personnalisés ou les menus déroulants au survol (hovering dropdowns). L'architecture spécialisée de Vercept vise à résoudre précisément ces points de friction.

#Implications techniques

Pour comprendre ce qu'Anthropic achète réellement, nous devons soulever le capot et examiner l'architecture des agents modernes d'utilisation de l'ordinateur. Contrairement aux LLMs standards qui génèrent des jetons de texte, ces systèmes sont des modèles Vision-Langage-Action (VLA).

#Naviguer dans l'espace d'action

Lorsqu'un agent autonome regarde un écran, il doit traduire une grille de pixels en une carte sémantique et interactive des éléments exploitables. Ce pipeline complexe implique généralement :

Analyse basée sur la vision : Utiliser des modèles multimodaux pour identifier les boutons, les champs de saisie, les boîtes englobantes (bounding boxes) et le texte directement à partir de captures d'écran brutes.
Arbres d'accessibilité (a11y) : Se brancher directement sur les API d'accessibilité du système d'exploitation (comme UIAutomation sur Windows, macOS Accessibility API ou AT-SPI sur Linux) pour comprendre la hiérarchie structurelle des applications de bureau, équivalente au DOM.
Cartographie des coordonnées : Calculer les coordonnées exactes des pixels X,Y nécessaires pour déclencher un événement localisé de clic ou de glissement de souris.

#Là où Vercept apporte de la valeur

Bien que les modèles Claude d'Anthropic aient introduit une utilisation révolutionnaire de l'ordinateur, les premières itérations s'appuyaient souvent fortement sur un traitement visuel basé sur une grille. Cela peut être coûteux en calcul, introduire une forte latence et être sujet à de légers désalignements de coordonnées sur les écrans à haute résolution (high-DPI).

L'approche propriétaire de Vercept impliquerait un analyseur hybride DOM/arbre d'accessibilité hautement optimisé, combiné à une mise en cache du contexte visuel localisé. Au lieu d'analyser l'intégralité d'un écran 4K pour chaque action granulaire, leurs modèles mettent efficacement en cache l'état de l'interface utilisateur et ne traitent que les mises à jour différentielles (deltas).

Considérez la différence dans la logique d'exécution :

Traditional AI Computer Use Pipeline:

1. Capture full screen image.
2. Send image payload to VLA model.
3. Model predicts coordinates (x: 1042, y: 450).
4. OS moves mouse and executes click.
5. Wait for visual change, repeat from Step 1.

Vercept's Optimized Pipeline:

1. Ingest initial OS accessibility tree + screen delta.
2. Map semantic intent ("Click Submit") to targeted Node ID.
3. Execute OS-level click event directly via API where possible.
4. Fallback to precise visual coordinates only if tree is missing.
5. Listen for asynchronous system UI change events to confirm success.

Cette approche hybride réduit considérablement la latence réseau et la consommation de tokens, deux des obstacles les plus importants au déploiement d'agents IA autonomes à l'échelle de l'entreprise.

#Et ensuite ?

La course entre Anthropic, Meta, OpenAI et Google s'accélère à une vitesse vertigineuse. Le débauchage d'un fondateur de Vercept par Meta suggère fortement qu'ils construisent activement leur propre framework d'agent OS concurrent, qui sera probablement profondément intégré à leur écosystème Llama open source dans les mois à venir.

Pour les ingénieurs logiciels, les développeurs frontend et les concepteurs UI/UX, ce changement de paradigme apporte un tout nouvel ensemble de responsabilités professionnelles. Construire des applications « prêtes pour les agents » (agent-ready) deviendra bientôt tout aussi critique que de garantir la réactivité sur mobile ou la compatibilité multi-navigateurs.

Pour se préparer à une base d'utilisateurs pilotée par l'IA, les développeurs doivent immédiatement commencer à se concentrer sur :

La maîtrise du HTML sémantique : Les agents IA s'appuient fortement sur des balises HTML standards et prévisibles (<button>, <nav>, <main>) pour comprendre la structure de la page. S'appuyer sur des balises <div> génériques avec des gestionnaires de clics JavaScript attachés dégradera considérablement les performances de l'agent.
Des implémentations ARIA robustes : Les fonctionnalités d'accessibilité ne sont plus réservées aux utilisateurs humains ; elles deviennent rapidement la principale surface d'API pour les agents d'utilisation de l'ordinateur.
Des états d'interface utilisateur prévisibles : Les interfaces utilisateur hautement dynamiques et chargées en JavaScript, qui modifient constamment leur disposition sans interaction directe de l'utilisateur, briseront les flux de travail des agents et entraîneront des échecs de tâches.

#Conclusion

L'acquisition stratégique de Vercept par Anthropic est une frappe calculée et agressive dans l'escalade de la guerre pour l'agentivité de l'IA. Bien que Meta ait réussi à extraire des talents fondateurs clés, Anthropic a réussi à sécuriser la technologie sous-jacente, le pipeline opérationnel et l'équipe d'ingénierie restante pour renforcer considérablement les capacités déjà impressionnantes d'utilisation de l'ordinateur de Claude.

Nous nous éloignons rapidement d'une époque où nous demandions simplement à l'IA d'écrire du code pour nous, et nous entrons dans une nouvelle ère fascinante où nous demandons à l'IA de faire le travail directement sur nos machines. Pour les développeurs qui construisent les plateformes de demain, le message est sans équivoque : les machines ne se contentent plus de lire Internet, elles apprennent activement à cliquer dessus.