엔비디아(Nvidia), 에이전틱 AI(Agentic AI)에 특화된 베라(Vera) CPU 출시

Hero

그동안 인공지능 하드웨어 시장은 '더 많은 GPU 컴퓨팅 성능이 더 나은 AI를 만든다'는 단일한 내러티브가 지배해 왔습니다. 거대한 파운데이션 모델을 훈련하고 병렬화된 추론을 처리하는 데에는 이 말이 여전히 유효합니다. 하지만 패러다임은 빠르게 변화하고 있습니다. 엔비디아(Nvidia)는 GTC 2026에서 이러한 변화를 인지하고 베라(Vera) CPU를 공식적으로 출시했습니다. 이 차세대 프로세서는 에이전틱 AI(Agentic AI)라는 매우 특정한 워크로드를 위해 기초부터 새롭게 설계되었습니다.

Ichiban Tools에서 개발자 유틸리티를 만드는 개발자로서, 저희는 AI 에이전트가 세상과 상호 작용하는 방식에 대해 많은 시간을 할애하여 고민하고 있습니다. 이번 발표는 에이전틱 패러다임에 대한 거대한 검증이라고 할 수 있습니다. 엔비디아가 방금 출시한 제품이 무엇인지, 이것이 AI 하드웨어 설계에서 근본적인 전환점을 의미하는 이유가 무엇인지, 그리고 이것이 소프트웨어 엔지니어링의 미래에 어떤 의미를 갖는지 심층적으로 살펴보겠습니다.

#어떤 일이 일어났는가

매우 성공적이었던 그레이스(Grace) CPU 아키텍처의 뒤를 잇는 베라 CPU는 단순한 사양 업그레이드가 아닙니다. 이는 근본적인 아키텍처의 재편을 의미합니다. 그레이스 CPU가 주로 데이터에 굶주린 호퍼(Hopper) GPU에 데이터를 공급하기 위해 설계되었다면, 베라는 자율적인 논리 연산의 핵심 구동 장치로 자리매김하고 있습니다.

엔비디아는 베라 CPU를 현대 AI 공장의 '컴퓨팅 백본'으로 구상하고 있습니다. 베라 CPU는 더 광범위한 베라 루빈(Vera Rubin) 플랫폼의 핵심 구성 요소입니다. 루빈 GPU 및 블루필드-4(BlueField-4) DPU와 완벽하게 짝을 이루도록 설계되었습니다. 이를 통해 수만 개의 복잡한 에이전틱 환경을 동시에 유지할 수 있는 인프라를 구축할 수 있습니다.

#왜 중요한가: 에이전틱 병목 현상

베라의 필요성을 이해하려면 에이전틱 AI가 기존의 생성형 AI와 어떻게 다른지 살펴봐야 합니다.

표준 대형 언어 모델(LLM)에 프롬프트를 입력할 때, 워크로드는 고도로 병렬화된 행렬 곱셈입니다. 이는 GPU에 맞춤화된 작업입니다. 하지만 AI 에이전트는 단순히 텍스트를 생성하는 것 이상의 역할을 합니다. 에이전트는 '생각'하고 '행동'합니다. 따라서 워크플로우의 오케스트레이션 단계를 관리하려면 고성능 CPU가 필요합니다. 자율형 에이전트의 병목 현상은 완전히 다릅니다.

도구 실행 (Tool Execution): 에이전트는 Python 코드를 작성하고, SQL 쿼리를 실행하며, 터미널 환경과 상호 작용하고, 외부 API를 호출합니다. 이러한 작업은 GPU에서는 병목을 일으키지만, 고클럭으로 고도로 최적화된 CPU 코어에서는 원활하게 작동하는 직렬형 단일 스레드 작업입니다.
추론 및 계획 (Reasoning & Planning): 사고의 사슬(Chain-of-Thought)이나 강화 학습 파이프라인과 같은 다단계 추론 패러다임은 엄청난 양의 분기 논리(branchy logic)를 필요로 합니다.
KV-캐시 관리 (KV-Cache Management): 긴 컨텍스트의 대화와 다중 턴 에이전틱 워크플로우는 방대한 키-값(KV) 캐시를 생성합니다. 시스템 메모리에서 이 캐시를 효율적으로 저장, 검색, 관리하려면 전례 없는 메모리 대역폭이 필요합니다.

이처럼 고도로 직렬화되고 상태에 종속적인 작업들을 특화된 프로세서로 오프로드(offload)함으로써, 전체 시스템은 비싼 GPU 리소스를 GPU가 근본적으로 잘하지 못하는 작업에 묶어두는 것을 방지합니다.

#기술적 의미

내부적으로 베라 CPU는 몇 가지 흥미로운 아키텍처적 결정을 도입했습니다. 개발자와 시스템 엔지니어에게 가장 큰 영향을 미치는 사양들을 살펴보겠습니다.

사양	세부 정보	에이전틱 워크로드에 미치는 영향
코어	88개의 맞춤형 올림푸스 코어(Armv9.2)	개별 에이전트 환경을 격리하기 위한 막대한 동시성 제공.
스레딩	공간적 멀티스레딩(Spatial Multithreading)	확정적 지연 시간(deterministic latency)으로 코어당 두 개의 작업을 실행. 실시간 에이전트 응답에 필수적.
메모리 용량	최대 1.5 TB LPDDR5X	엄청난 크기의 컨텍스트 윈도우를 CPU에 직접 캐싱 가능.
대역폭	1.2 TB/s	그레이스(Grace)의 2배에 달하는 대역폭. 빠른 도구 사용 시 발생하는 데이터 기아(starvation) 현상 사실상 제거.
인터커넥트	NVLink-C2C (1.8 TB/s)	루빈(Rubin) GPU와 원활하고 일관된 메모리 공유.

#공간적 멀티스레딩(Spatial Multithreading)과 올림푸스 코어

88개의 맞춤형으로 설계된 올림푸스 코어의 도입은 중요한 이정표입니다. 이 Armv9.2 호환 코어는 엔비디아가 **공간적 멀티스레딩(Spatial Multithreading)**이라고 부르는 새로운 기술을 활용합니다. 스레드가 실행 유닛을 차지하기 위해 경쟁하면서 가변적인 지연 시간을 유발할 수 있는 기존의 동시 멀티스레딩(SMT)과 달리, 공간적 멀티스레딩은 예측 가능하고 확정적인 지연 시간(deterministic latency)을 보장합니다. 에이전트가 중요한 시스템 명령을 실행하거나 API 페이로드를 기다릴 때, 이러한 확정적 지연 시간은 미세한 끊김(micro-stutter)을 방지합니다. 이러한 끊김은 수천 단계의 자율 작업에서 누적되어 막대한 지연을 초래할 수 있기 때문에 매우 중요합니다.

#전례 없는 메모리 대역폭

에이전틱 워크로드에서 메모리 대역폭은 종종 조용한 킬러(silent killer)가 됩니다. 베라는 무려 1.2 TB/s의 속도로 작동하는 최대 1.5 TB의 LPDDR5X 메모리를 자랑합니다. 이를 통해 CPU는 로컬에서 방대한 KV-캐시를 유지할 수 있으며, CPU와 GPU 간에 컨텍스트를 지속적으로 주고받아야 하는 필요성을 줄여줍니다. 결과적으로 기존 랙 스케일 CPU에 비해 에이전틱 워크로드에서 놀라운 50%의 성능 향상을 가져오며, 동시에 와트당 성능은 2배로 향상됩니다.

#다음 단계: 베라 CPU 랙

엔비디아는 단순히 개별 칩을 판매하는 것이 아니라 랙 스케일의 인프라를 판매하고 있습니다. 수랭식 베라 CPU 랙은 256개의 베라 CPU를 단일 배포에 통합합니다. 엔비디아는 이 인프라가 22,500개 이상의 동시 CPU 환경을 유지할 수 있다고 주장합니다.

엔터프라이즈 애플리케이션의 경우, 이는 성배(Holy Grail)와도 같습니다. 단일 랙에서 수많은 자율 소프트웨어 엔지니어, 데이터 분석가 또는 고객 지원 에이전트를 호스팅할 수 있으며, 이들 모두 고도로 격리되고 확정적인 환경에서 독립적으로 작동할 수 있음을 의미합니다.

#결론

베라 CPU의 출시는 하드웨어 업계가 수동적인 AI 어시스턴트에서 능동적인 AI 에이전트로의 전환을 인식하고 있다는 분명한 신호입니다. 도구 실행, 분기 논리, 대규모 KV-캐시 관리를 중심으로 아키텍처를 특수 목적에 맞게 구축함으로써, 엔비디아는 에이전틱 시대에 임박한 컴퓨팅 병목 현상을 해결했습니다.

개발자를 위한 도구와 유틸리티를 만드는 우리에게 베라 CPU는 더 복잡하고 자율적이며 신뢰할 수 있는 소프트웨어를 구축하는 데 필요한 하드웨어 기반을 제공합니다. GPU가 AI 혁명의 엔진으로 남을 수는 있겠지만, 베라를 통해 엔비디아는 공식적으로 운전대를 만들어낸 셈입니다.