Mercury 2: El LLM de razonamiento más rápido impulsado por difusión

Hero

#Introducción

Durante la mayor parte de la última década, el panorama de la inteligencia artificial ha estado dominado por una arquitectura única y monolítica: el Transformer autorregresivo. Desde GPT-2 hasta las iteraciones más recientes de modelos de razonamiento como o3 de OpenAI, el mecanismo fundamental de generación se ha mantenido prácticamente idéntico: predecir el siguiente token, un paso discreto a la vez. Aunque este proceso de generación secuencial de izquierda a derecha es innegablemente poderoso, crea un cuello de botella de latencia ineludible, especialmente cuando se ejecutan cadenas de pensamiento (Chain-of-Thought o CoT) complejas.

Hoy, ese paradigma cambia. Inception Labs ha roto el statu quo con el anuncio de Mercury 2, comercializado como el LLM de razonamiento más rápido del mundo, impulsado en su totalidad por modelos de difusión. Es un salto gigantesco en la forma en que los modelos "piensan" y generan texto.

#El anuncio

Anunciado esta misma mañana y escalando rápidamente a los primeros puestos de Hacker News, Mercury 2 presenta un cambio radical respecto a la generación estándar de tokens. Inception Labs ha logrado aplicar con éxito procesos de difusión continua —los principios matemáticos detrás de generadores de imágenes como Midjourney y Stable Diffusion— al dominio discreto del razonamiento en lenguaje natural.

En lugar de predecir la siguiente palabra basándose en las anteriores, Mercury 2 incrusta (embeds) los tokens en un espacio latente continuo. Luego, aplica un proceso de eliminación de ruido (denoising) a una secuencia completa simultáneamente. Esto significa que no solo escribe su proceso de pensamiento palabra por palabra; evalúa toda la estructura lógica a la vez, refinando un bloque de ruido hasta convertirlo en una ruta de razonamiento coherente, altamente precisa y en la respuesta final, todo esto en una fracción del tiempo que tardan los modelos tradicionales.

#Por qué es importante

Las implicaciones para la latencia, la experiencia del usuario y el desarrollo de aplicaciones son profundas.

En un modelo autorregresivo tradicional, si un prompt requiere 2.000 tokens de razonamiento interno antes de emitir una respuesta de 50 tokens, el usuario (o el sistema) debe esperar a que los 2.000 tokens se generen secuencialmente. El ancho de banda de la memoria y la capacidad de cómputo se consumen de manera lineal con la longitud de la secuencia.

Mercury 2 altera fundamentalmente esta ecuación. Al utilizar un refinamiento iterativo en paralelo, el modelo converge en la salida razonada final en un número casi constante de pasos de difusión, independientemente de la profundidad lógica requerida.

Esto se traduce en una reducción masiva del Time-to-First-Token (TTFT) y de la latencia general de generación. Para los desarrolladores que construyen aplicaciones en tiempo real —como asistentes de voz, herramientas de revisión de código instantánea o generadores dinámicos de interfaces de usuario— esto elimina el temido spinner de "pensando...". Lleva el poder del razonamiento profundo a entornos sensibles a la latencia donde antes era imposible o económicamente inviable desplegar modelos CoT extensos.

#Implicaciones técnicas

Para apreciar verdaderamente la ingeniería detrás de Mercury 2, tenemos que echar un vistazo bajo el capó y ver cómo la difusión maneja el texto.

#1. Proyecciones latentes continuas

Los modelos de lenguaje estándar operan sobre vocabularios discretos. No puedes "difundir" trivialmente un número entero discreto que representa una palabra. Mercury 2 resuelve esto proyectando tokens discretos en un espacio latente continuo de alta dimensionalidad. El proceso de difusión —añadir ruido y entrenar una red neuronal para revertirlo— opera completamente dentro de este dominio continuo antes de proyectar los vectores latentes finales de vuelta a texto legible por humanos.

#2. Eliminación de ruido en paralelo vs. Decodificación secuencial

El cambio arquitectónico se entiende mejor observando los bucles de generación principales:

# Pseudo-code comparison of generation logic

# Traditional Autoregressive (Slow, O(N))
def generate_autoregressive(prompt, max_tokens):
    context = prompt
    for _ in range(max_tokens):
        next_token = model.forward(context)
        context += next_token
    return context

# Mercury 2 Diffusion (Fast, O(Steps) where Steps << N)
def generate_diffusion(prompt, steps=20):
    latent_sequence = generate_pure_noise()
    for step in reversed(range(steps)):
        latent_sequence = model.denoise(latent_sequence, prompt, step)
    return project_to_text(latent_sequence)

Como se ilustra, el bucle de generación autorregresivo está limitado por el número de tokens ($N$). El bucle de Mercury 2 está limitado por el número de pasos de denoising, lo cual está completamente desacoplado de la longitud de la secuencia de salida.

#3. Cadena de pensamiento (CoT) latente

Quizás el avance técnico más emocionante sea el "CoT Latente". Debido a que Mercury 2 opera en un espacio continuo, sus pasos de razonamiento intermedios no necesitan mapearse a tokens legibles en inglés. Puede manipular vectores conceptuales abstractos, encontrando la ruta lógica óptima sin desperdiciar cómputo en gramática, sintaxis o formato hasta el paso de proyección final.

Arquitectura	Estrategia de generación	Complejidad de tiempo	Medio de razonamiento
Autorregresiva (ej., o3)	Secuencial, de izquierda a derecha	$O(N)$ tokens	CoT de tokens explícitos
Difusión (Mercury 2)	Paralelo, eliminación de ruido iterativa	$O(K)$ pasos ($K \ll N$)	CoT latente continuo

#¿Qué sigue?

El lanzamiento de Mercury 2 es un punto de inflexión para la comunidad de IA. Demuestra que los Transformers autorregresivos no son el único camino viable para avanzar en el razonamiento, y sin duda desatará una carrera armamentista entre los principales laboratorios de IA para desarrollar modelos de texto competitivos basados en difusión.

En Ichiban Tools, ya estamos explorando cómo integrar modelos de la clase Mercury en nuestras utilidades para desarrolladores. Imagina recibir sugerencias arquitectónicas profundamente razonadas y revisiones de pull requests al instante, apareciendo en milisegundos en lugar de minutos. También esperamos que la comunidad de código abierto intente replicar rápidamente esta arquitectura, lo que potencialmente conducirá a modelos de razonamiento locales más pequeños e hiperrápidos que se ejecuten de manera eficiente en hardware de consumo.

#Conclusión

Mercury 2 es más que el lanzamiento de otro modelo; es un giro arquitectónico fundamental. Al unir las profundas capacidades de razonamiento de los LLMs modernos con la velocidad de generación paralela de los modelos de difusión, Inception Labs nos ha dado un vistazo a la próxima generación de inteligencia artificial. La era de esperar a que los modelos escriban lentamente sus pensamientos token a token está llegando a su fin. La era del razonamiento holístico e instantáneo por fin ha llegado.