Anthropic의 Vercept 인수: 컴퓨터 사용 AI 에이전트를 향한 치열한 경쟁

Hero

#소개

인공지능의 지형이 대화형 인터페이스에서 행동 중심의 에이전트로 빠르게 변화하고 있습니다. 그리고 이제 그 전쟁터는 공식적으로 여러분의 데스크톱으로 옮겨졌습니다. 최근 극적인 상황 속에서 Anthropic은 "컴퓨터 사용(computer-use)" AI에 집중하는 스타트업인 Vercept를 인수했습니다. 이번 인수는 Meta가 Vercept의 공동 창립자 중 한 명을 영입한 직후에 이루어졌습니다. 이는 현재 전문 AI 분야에서 얼마나 치열한 인재 전쟁이 벌어지고 있는지를 잘 보여줍니다.

개발자, 소프트웨어 엔지니어, 그리고 프로덕트 빌더들에게 이는 단순한 기업 간의 드라마가 아닙니다. 파운데이션 모델이 앞으로 어느 방향으로 나아갈지 보여주는 거대한 지표입니다. 단순히 코드를 생성하는 대규모 언어 모델(LLM)에서 벗어나, 이제는 능동적으로 코드를 배포하고, 디버깅하며, 복잡한 시스템 인터페이스를 탐색할 수 있는 자율 시스템으로 전환하고 있습니다. 이러한 상황에서 이번 전략적 인수의 이면에 있는 메커니즘을 이해하는 것은 매우 중요합니다.

#무슨 일이 있었는가

지난 한 해 동안 Vercept는 AI 에이전트 분야의 다크호스로 떠올랐습니다. 이들은 밀도 높은 그래픽 사용자 인터페이스(GUI)를 탐색하고, 복잡한 웹 애플리케이션과 상호 작용하며, 다양한 운영 체제에서 다단계 워크플로우를 실행할 수 있는 고도로 정교한 모델을 구축했습니다. 이들의 접근 방식은 단순히 화면을 스크래핑하는 것에 그치지 않았습니다. UI 요소와 시스템 상태에 대한 깊은 의미론적 이해(semantic understanding)를 포함하고 있었습니다.

하지만 Meta가 핵심 창립자 중 한 명을 성공적으로 영입하면서 이 스타트업의 궤도는 갑작스럽게 바뀌었습니다. Anthropic은 남은 전문 인력과 기반 기술이 흩어지거나 경쟁사의 손에 넘어가는 것을 지켜보지 않았습니다. 그들은 재빠르게 움직여 회사의 남은 부분을 인수했습니다.

Anthropic에게 컴퓨터 사용 AI는 낯선 분야가 아닙니다. 그들은 최근 Claude에 컴퓨터 사용 기능을 도입하여, 모델이 화면을 보고, 커서를 이동하며, 버튼을 클릭하고, 기본적으로 텍스트를 입력할 수 있도록 만들었습니다. Vercept 팀을 내부로 흡수한 것은 Anthropic이 Claude를 궁극의 OS 수준 운영자로 만드는 데 공격적으로 투자하고 있음을 의미합니다. 이를 통해 경쟁사들에 대한 우위를 확고히 유지하려는 것입니다.

#왜 중요한가

왜 거대 기술 기업들은 컴퓨터 사용 스타트업을 두고 치열하게 경쟁하는 것일까요? 그 해답은 현재 우리가 사용하는 API 중심 아키텍처의 근본적인 한계에 있습니다.

역사적으로 기존 워크플로우에 AI를 통합하려면 맞춤형 API 연결, 커스텀 웹훅 통합 또는 고도로 전문화된 플러그인이 필요했습니다. 이러한 접근 방식은 악명 높을 정도로 취약하고 유지 보수 비용이 많이 듭니다. 또한 소프트웨어 공급업체가 명시적으로 노출하기로 선택한 엔드포인트에 의해서만 엄격하게 제한됩니다.

컴퓨터 사용 에이전트는 이러한 병목 현상을 완전히 우회합니다. 인간이 GUI를 통해 하는 것과 똑같은 방식으로 소프트웨어와 상호 작용함으로써, AI는 최신 API의 유무와 관계없이 문자 그대로 모든 애플리케이션을 작동할 수 있습니다.

보편적 호환성: 인간이 클릭할 수 있다면 AI도 자동화할 수 있습니다. 이는 그동안 갇혀 있던 수조 달러 규모의 기업 가치를 열어줍니다.
워크플로우 연결: 에이전트는 하나의 일관된 워크플로우 내에서 웹 브라우저, 로컬 터미널, 독점적인 스프레드시트, 그리고 레거시 이메일 클라이언트 사이를 매끄럽게 이동할 수 있습니다.
레거시 시스템: 최신 REST 또는 GraphQL API가 없는 오래된 온프레미스 기업용 소프트웨어도 대규모 재작성 프로젝트 없이 즉시 완전한 자동화가 가능해집니다.

Anthropic에게 Vercept의 기술은 운영 안정성 측면에서 중요한 도약을 의미합니다. 현재의 컴퓨터 사용 모델은 종종 "환각 클릭(hallucinated clicks)"을 겪거나, 무한 스크롤, 커스텀 캔버스 렌더링, 호버링 드롭다운과 같이 고도로 동적인 UI 요소에서 어려움을 겪습니다. Vercept의 전문화된 아키텍처는 바로 이러한 마찰 지점을 해결하는 것을 목표로 합니다.

#기술적 의미

Anthropic이 실제로 무엇을 구매했는지 이해하려면, 최신 컴퓨터 사용 에이전트의 아키텍처 내부를 들여다보아야 합니다. 텍스트 토큰을 출력하는 표준 LLM과 달리, 이러한 시스템은 비전-언어-행동(Vision-Language-Action, VLA) 모델입니다.

#행동 공간 탐색하기

자율 에이전트가 화면을 볼 때, 픽셀의 격자를 행동 가능한 요소들의 의미론적이고 상호 작용적인 지도로 변환해야 합니다. 이 복잡한 파이프라인에는 일반적으로 다음이 포함됩니다:

비전 기반 파싱: 멀티모달 모델을 사용하여 원본 스크린샷에서 직접 버튼, 입력 필드, 바운딩 박스(bounding boxes) 및 텍스트를 식별합니다.
접근성 트리 (a11y): 운영 체제의 접근성 API(Windows의 UIAutomation, macOS Accessibility API 또는 Linux의 AT-SPI 등)에 직접 연결하여 데스크톱 앱의 DOM과 동등한 구조적 계층을 이해합니다.
좌표 매핑: 국소적인 마우스 클릭이나 드래그 이벤트를 트리거하는 데 필요한 정확한 X, Y 픽셀 좌표를 계산합니다.

#Vercept가 가치를 더하는 부분

Anthropic의 Claude 모델이 획기적인 컴퓨터 사용 기능을 도입했지만, 초기 버전은 종종 격자 기반의 시각적 처리에 크게 의존했습니다. 이는 컴퓨팅 비용이 많이 들고 지연 시간이 길어질 수 있으며, 고해상도(High-DPI) 디스플레이에서 약간의 좌표 불일치가 발생하기 쉽습니다.

알려진 바에 따르면 Vercept의 독자적인 접근 방식은 고도로 최적화된 하이브리드 DOM/a11y 트리 파서와 국소화된 시각적 컨텍스트 캐싱(caching)을 결합했습니다. 이들의 모델은 모든 세부적인 행동마다 전체 4K 화면을 분석하는 대신, UI 상태를 효율적으로 캐시하고 변경된 부분(delta updates)만 처리합니다.

실행 논리의 차이를 고려해 보세요:

Traditional AI Computer Use Pipeline:

1. Capture full screen image.
2. Send image payload to VLA model.
3. Model predicts coordinates (x: 1042, y: 450).
4. OS moves mouse and executes click.
5. Wait for visual change, repeat from Step 1.

Vercept's Optimized Pipeline:

1. Ingest initial OS accessibility tree + screen delta.
2. Map semantic intent ("Click Submit") to targeted Node ID.
3. Execute OS-level click event directly via API where possible.
4. Fallback to precise visual coordinates only if tree is missing.
5. Listen for asynchronous system UI change events to confirm success.

이 하이브리드 접근 방식은 네트워크 지연 시간과 토큰 소비를 극적으로 줄여줍니다. 이 두 가지는 엔터프라이즈 규모에서 자율 AI 에이전트를 배포할 때 가장 큰 장애물 중 하나입니다.

#향후 전망

Anthropic, Meta, OpenAI, Google 간의 경쟁은 엄청난 속도로 가속화되고 있습니다. Meta가 Vercept의 창립자를 영입한 것은 그들이 적극적으로 독자적인 경쟁 OS-에이전트 프레임워크를 구축하고 있음을 강력히 시사합니다. 이는 향후 몇 달 안에 그들의 오픈소스 Llama 생태계에 깊이 통합될 가능성이 높습니다.

소프트웨어 엔지니어, 프론트엔드 개발자, 그리고 UI/UX 디자이너에게 이러한 패러다임의 변화는 완전히 새로운 직업적 책임을 가져다줍니다. "에이전트 친화적인(agent-ready)" 애플리케이션을 구축하는 것은 곧 모바일 반응형이나 크로스 브라우저 호환성을 보장하는 것만큼이나 중요해질 것입니다.

AI 주도의 사용자 기반에 대비하기 위해, 개발자들은 즉시 다음 사항들에 집중해야 합니다:

시맨틱 HTML 마스터하기: AI 에이전트는 페이지 구조를 이해하기 위해 표준적이고 예측 가능한 HTML 태그(<button>, <nav>, <main>)에 크게 의존합니다. JavaScript 클릭 핸들러가 연결된 일반적인 <div> 태그에 의존하면 에이전트의 성능이 크게 저하됩니다.
견고한 ARIA 구현: 접근성 기능은 더 이상 인간 사용자만을 위한 것이 아닙니다. 이는 컴퓨터 사용 에이전트의 주요 API 표면으로 빠르게 자리 잡고 있습니다.
예측 가능한 UI 상태: 직접적인 사용자의 상호 작용 없이 지속적으로 레이아웃이 변경되는 고도로 동적인 JavaScript 중심의 UI는 에이전트의 워크플로우를 망가뜨리고 작업 실패를 유발합니다.

#결론

Anthropic의 전략적인 Vercept 인수는 AI 에이전시를 향한 심화되는 전쟁에서 계산되고 공격적인 타격입니다. Meta가 핵심적인 창립 인재를 빼내는 데 성공했지만, Anthropic은 기반 기술, 운영 파이프라인, 그리고 남은 엔지니어링 팀을 성공적으로 확보했습니다. 이를 통해 이미 인상적인 Claude의 컴퓨터 사용 기능을 대폭 강화할 수 있게 되었습니다.

우리는 AI에게 코드를 작성해 달라고 프롬프트를 입력하던 시대에서 빠르게 벗어나고 있습니다. 그리고 이제는 AI에게 우리 컴퓨터에서 직접 작업을 수행해 달라고 요청하는 매력적인 새로운 시대로 진입하고 있습니다. 내일의 플랫폼을 구축하는 개발자들에게 그 메시지는 명확합니다. 기계는 더 이상 인터넷을 읽기만 하는 것이 아닙니다. 그들은 인터넷을 클릭하는 방법을 적극적으로 배우고 있습니다.