Anthropic 收购 Vercept：AI 计算机控制 Agent 领域的军备竞赛升级

Hero

#引言

人工智能领域的风向正在迅速转变，从对话式交互界面转向了执行导向的 Agent，而新的主战场已经正式转移到了你的桌面端。在一次充满戏剧性的事件中，Anthropic 收购了 Vercept——一家死磕“计算机控制（computer-use）” AI 的初创公司。就在收购发生前夕，Meta 刚刚挖走了 Vercept 的一位联合创始人，这无疑凸显了当前垂直 AI 领域愈演愈烈的人才争夺战。

对于广大开发者、软件工程师和产品构建者来说，这绝非茶余饭后的企业八卦，而是基础模型未来走向的巨大风向标。当我们从单纯生成代码的大型语言模型 (LLM)，过渡到能够主动部署、调试并游刃于复杂系统界面的自主系统时，理解这些战略收购背后的底层逻辑变得至关重要。

#事情经过

在过去的一年里，Vercept 作为 AI Agent 领域的一匹黑马异军突起。他们构建了极其复杂的模型，能够驾驭密集的信息图形用户界面 (GUI)，与复杂的 Web 应用交互，并跨操作系统执行多步工作流。他们的方法绝非停留在肤浅的屏幕抓取（screen scraping）层面，而是深入到了对 UI 元素和系统状态的语义级理解。

然而，当 Meta 成功将其一位核心创始人招致麾下时，这家初创公司的发展轨迹陡然生变。为了防止剩余的专业人才和底层技术流失或落入竞争对手之手，Anthropic 迅速出手，将整个公司收入囊中。

Anthropic 对计算机控制 AI 并不陌生。他们最近为 Claude 引入了 computer use 功能，让模型能够原生查看屏幕、移动光标、点击按钮并输入文本。将 Vercept 团队招致麾下，标志着 Anthropic 正在大举加码，力求将 Claude 打造为终极的操作系统级操作员，从而在与竞争对手的角逐中保持领先优势。

#为什么这很重要

为什么科技巨头们会对计算机控制领域的初创公司展开如此激烈的争夺？答案在于我们当前 API 驱动架构的根本局限性。

过去，将 AI 整合到现有工作流中，需要定制的 API 连接、自定义的 Webhook 集成或是高度专业的插件。众所周知，这种方式非常脆弱，维护成本高昂，且严格受限于软件供应商选择性暴露的端点。

计算机控制 Agent 则彻底绕过了这个瓶颈。通过像人类一样直接与 GUI 交互，AI 几乎可以操作任何应用程序，不管它有没有现代的 API。

通用兼容性： 只要人类能点击的地方，AI 就能实现自动化。这将释放数万亿美元被锁定的企业价值。
工作流缝合： Agent 可以在单个连贯的工作流中，无缝穿梭于 Web 浏览器、本地终端、专有电子表格和传统的电子邮件客户端之间。
遗留系统： 那些缺乏现代 REST 或 GraphQL API 的老旧本地企业软件，无需进行大规模重构，就能瞬间实现全面自动化。

对于 Anthropic 而言，Vercept 的技术代表着其在操作可靠性上的关键跨越。目前的 computer-use 模型偶尔会出现“幻觉点击”，在处理无限滚动、自定义 Canvas 渲染或悬浮下拉菜单等高度动态的 UI 元素时也显得力不从心。Vercept 的专业架构正是为了解决这些痛点而生的。

#技术影响

为了搞清楚 Anthropic 到底买到了什么，我们需要深入探究现代计算机控制 Agent 的底层架构。与输出文本 Token 的标准 LLM 不同，这些系统属于视觉-语言-动作 (VLA) 模型。

#导航动作空间

当自主 Agent 审视屏幕时，它必须将像素网格转化为一个由可交互元素组成的语义映射图。这个复杂的 Pipeline 通常包括：

基于视觉的解析： 利用多模态模型直接从原始屏幕截图中识别按钮、输入框、边界框（bounding boxes）和文本。
无障碍树 (a11y)： 直接挂载到操作系统的无障碍 API（例如 Windows 上的 UIAutomation、macOS Accessibility API 或 Linux 上的 AT-SPI），以理解桌面应用中类似 DOM 的结构层级。
坐标映射： 计算触发局部鼠标点击或拖拽事件所需的精确 X、Y 像素坐标。

#Vercept 的核心价值所在

虽然 Anthropic 的 Claude 模型引入了开创性的 computer use 功能，但其早期版本往往严重依赖基于网格的视觉处理。这种方式不仅计算成本高、延迟大，而且在高 DPI 显示器上很容易出现轻微的坐标偏差。

据报道，Vercept 的专有方案采用了一种高度优化的混合 DOM/a11y 树解析器，并结合了局部视觉上下文缓存。他们的模型并非在执行每一个细微动作时都要分析整个 4K 屏幕，而是高效地缓存 UI 状态，并仅处理增量更新。

来看一下执行逻辑上的差异：

传统的 AI 计算机控制 Pipeline：

1. Capture full screen image.
2. Send image payload to VLA model.
3. Model predicts coordinates (x: 1042, y: 450).
4. OS moves mouse and executes click.
5. Wait for visual change, repeat from Step 1.

Vercept 优化的 Pipeline：

1. Ingest initial OS accessibility tree + screen delta.
2. Map semantic intent ("Click Submit") to targeted Node ID.
3. Execute OS-level click event directly via API where possible.
4. Fallback to precise visual coordinates only if tree is missing.
5. Listen for asynchronous system UI change events to confirm success.

这种混合方案大幅降低了网络延迟和 Token 消耗——这是在企业规模部署自主 AI Agent 时面临的两大核心障碍。

#未来展望

Anthropic、Meta、OpenAI 和 Google 之间的竞赛正在以惊人的速度白热化。Meta 挖走 Vercept 创始人这一举动强烈暗示，他们正在积极构建竞品的操作系统 Agent 框架，并极有可能在未来几个月内将其深度整合到其开源的 Llama 生态中。

对于软件工程师、前端开发者以及 UI/UX 设计师而言，这种范式转变带来了全新的职业责任。构建“Agent 友好（agent-ready）”的应用程序，很快就会变得像确保移动端响应式设计或跨浏览器兼容性一样重要。

为了迎接由 AI 驱动的用户群体，开发者应立即开始关注以下几点：

精通语义化 HTML： AI Agent 严重依赖标准的、可预测的 HTML 标签（如 <button>、<nav>、<main>）来理解页面结构。过度依赖绑定了 JavaScript 点击事件处理器的通用 <div> 标签，会严重降低 Agent 的性能。
健壮的 ARIA 实现： 无障碍特性不再仅仅服务于人类用户；它们正在迅速成为计算机控制 Agent 的主要 API 接口面。
可预测的 UI 状态： 那些高度动态、重度依赖 JavaScript 且在没有用户直接交互的情况下不断改变布局的 UI，会打断 Agent 的工作流并导致任务失败。

#总结

Anthropic 对 Vercept 的战略收购，是在不断升级的 AI Agent 争夺战中一次经过深思熟虑的主动出击。尽管 Meta 成功挖走了关键的创始人才，但 Anthropic 成功保住了底层技术、执行 Pipeline 和剩余的工程团队，从而大幅增强了 Claude 本就令人瞩目的 computer use 能力。

我们正在迅速告别那个只需向 AI 提供 Prompt 来帮我们写代码的时代，迈入一个令人着迷的新纪元：在这个时代，我们直接让 AI 在我们的机器上完成工作。对于构建未来平台的开发者来说，释放出的信号无比清晰：机器不再仅仅是读取互联网上的信息——它们正在主动学习如何点击和操作它。