Nvidia lanza la CPU Vera, creada específicamente para la IA agéntica

Hero

Históricamente, el panorama del hardware de inteligencia artificial ha estado dominado por una narrativa singular: más capacidad de cómputo en la GPU equivale a una mejor IA. Si bien esto sigue siendo cierto para el entrenamiento de modelos fundacionales masivos y el procesamiento de inferencia paralelizada, el paradigma está cambiando rápidamente. En la GTC 2026, Nvidia reconoció este cambio con el lanzamiento oficial de la CPU Vera, un procesador de próxima generación diseñado desde cero para una carga de trabajo muy específica: la IA agéntica (Agentic AI).

Como desarrolladores que creamos herramientas para otros desarrolladores en Ichiban Tools, pasamos mucho tiempo pensando en cómo los agentes de IA interactúan con el mundo. Este anuncio es una validación masiva del paradigma agéntico. A continuación, analizamos a fondo lo que Nvidia acaba de lanzar, por qué representa un giro fundamental en el diseño de hardware de IA y qué significa para el futuro de la ingeniería de software.

#Qué ha pasado

Sucediendo a la exitosa arquitectura de la CPU Grace, la CPU Vera no es solo una mejora iterativa de especificaciones; es una reestructuración arquitectónica fundamental. Mientras que la CPU Grace fue diseñada principalmente para alimentar con datos a las hambrientas GPUs Hopper, Vera se posiciona como el motor principal de la lógica autónoma.

Nvidia concibe la CPU Vera como la "columna vertebral de cómputo" de la fábrica de IA moderna. Es un componente central de la plataforma más amplia Vera Rubin, diseñada para emparejarse perfectamente con las GPUs Rubin y las DPUs BlueField-4, creando así una infraestructura capaz de sostener decenas de miles de entornos agénticos complejos y concurrentes.

#Por qué es importante: El cuello de botella agéntico

Para entender la necesidad de Vera, tenemos que ver en qué se diferencia la IA agéntica de la IA generativa tradicional.

Cuando le envías un prompt a un modelo de lenguaje grande (LLM) estándar, la carga de trabajo es principalmente multiplicación de matrices fuertemente paralelizada, una tarea hecha a medida para las GPUs. Sin embargo, un agente de IA hace más que solo generar texto. "Piensa" y "actúa". Requiere una CPU de alto rendimiento para gestionar las fases de orquestación de su flujo de trabajo. Los cuellos de botella para los agentes autónomos son completamente diferentes:

Ejecución de herramientas: Los agentes escriben Python, ejecutan consultas SQL, interactúan con entornos de terminal y realizan llamadas a APIs externas. Estas son operaciones en serie, de un solo hilo (single-threaded), que asfixian a las GPUs pero prosperan en núcleos de CPU de alta frecuencia y altamente optimizados.
Razonamiento y planificación: Los paradigmas de razonamiento de múltiples pasos, como la Cadena de Pensamiento (Chain-of-Thought) o los pipelines de aprendizaje por refuerzo, requieren cantidades masivas de lógica ramificada.
Gestión del KV-Cache: Las conversaciones de contexto largo y los flujos de trabajo agénticos de múltiples turnos generan cachés clave-valor (KV) masivos. Almacenar, recuperar y gestionar eficientemente esta caché en la memoria del sistema requiere un ancho de banda de memoria sin precedentes.

Al descargar estas operaciones altamente seriales y dependientes del estado a un procesador especializado, el sistema en general evita bloquear costosos ciclos de GPU en tareas para las que fundamentalmente no son buenas.

#Implicaciones técnicas

Bajo el capó, la CPU Vera trae a la mesa varias decisiones arquitectónicas fascinantes. Desglosaremos las especificaciones más impactantes para desarrolladores e ingenieros de sistemas.

Especificación	Detalles	Impacto en cargas de trabajo agénticas
Núcleos	88 núcleos Olympus personalizados (Armv9.2)	Concurrencia masiva para aislar entornos de agentes discretos.
Hilos (Threading)	Multihilo espacial (Spatial Multithreading)	Ejecuta dos tareas por núcleo con latencia determinista, crucial para las respuestas en tiempo real de los agentes.
Capacidad de memoria	Hasta 1.5 TB LPDDR5X	Permite almacenar en caché inmensas ventanas de contexto directamente en la CPU.
Ancho de banda	1.2 TB/s	El doble (2X) del ancho de banda de Grace, eliminando virtualmente la falta de datos durante el uso rápido de herramientas.
Interconexión	NVLink-C2C (1.8 TB/s)	Intercambio de memoria coherente y fluido con las GPUs Rubin.

#Multihilo espacial y núcleos Olympus

La introducción de los 88 núcleos Olympus diseñados a medida marca un hito importante. Estos núcleos compatibles con Armv9.2 utilizan una tecnología novedosa que Nvidia llama Spatial Multithreading (Multihilo espacial). A diferencia del Simultaneous Multithreading (SMT) tradicional, que puede introducir latencia variable a medida que los hilos compiten por las unidades de ejecución, el Spatial Multithreading garantiza una latencia predecible y determinista. Cuando un agente está ejecutando un comando de sistema crítico o esperando la respuesta de una API, la latencia determinista evita los micro-cortes que pueden acumularse en retrasos masivos a lo largo de una tarea autónoma de mil pasos.

#Ancho de banda de memoria sin precedentes

Para los flujos de trabajo agénticos, el ancho de banda de la memoria suele ser el asesino silencioso. Vera cuenta con hasta 1.5 TB de memoria LPDDR5X funcionando a unos asombrosos 1.2 TB/s. Esto permite a la CPU mantener cachés KV masivos localmente, reduciendo la necesidad de intercambiar constantemente el contexto entre la CPU y la GPU. Esto se traduce en un asombroso aumento del 50% en el rendimiento en cargas de trabajo agénticas en comparación con las CPUs tradicionales a escala de rack, al tiempo que ofrece el doble de rendimiento por vatio (2X performance-per-watt).

#Qué sigue: El rack de CPU Vera

Nvidia no solo está vendiendo chips individuales; están vendiendo infraestructura a escala de rack. El Vera CPU Rack con refrigeración líquida integra 256 CPUs Vera en un solo despliegue. Nvidia afirma que esta infraestructura puede sostener más de 22,500 entornos de CPU concurrentes.

Para aplicaciones empresariales, este es el Santo Grial. Significa que un solo rack puede alojar una flota masiva de ingenieros de software autónomos, analistas de datos o agentes de atención al cliente, todos operando de forma independiente en entornos altamente aislados y deterministas.

#Conclusión

El lanzamiento de la CPU Vera es una señal clara de que la industria del hardware reconoce el cambio de asistentes de IA pasivos a agentes de IA activos. Al crear una arquitectura específica para la ejecución de herramientas, la lógica ramificada y la gestión masiva de cachés KV, Nvidia ha resuelto el inminente cuello de botella de cómputo de la era agéntica.

Para aquellos de nosotros que construimos herramientas y utilidades para desarrolladores, la CPU Vera proporciona la base de hardware necesaria para construir software más complejo, autónomo y confiable. La GPU puede seguir siendo el motor de la revolución de la IA, pero con Vera, Nvidia ha construido oficialmente el volante.