Mercury 2: Il più veloce LLM di ragionamento basato sulla diffusione

Hero

#Introduzione

Per gran parte dell'ultimo decennio, il panorama dell'intelligenza artificiale è stato dominato da un'unica architettura monolitica: il Transformer autoregressivo. Da GPT-2 fino alle ultime iterazioni di modelli di ragionamento come o3 di OpenAI, il meccanismo fondamentale di generazione è rimasto in gran parte identico: prevedere il token successivo, un passo discreto alla volta. Sebbene innegabilmente potente, questo processo di generazione sequenziale da sinistra a destra crea un inevitabile collo di bottiglia a livello di latenza, specialmente quando si esegue un complesso ragionamento Chain-of-Thought (CoT).

Oggi, questo paradigma cambia. Inception Labs ha stravolto lo status quo con l'annuncio di Mercury 2, presentato come il più veloce LLM di ragionamento al mondo, alimentato interamente da modelli di diffusione. Si tratta di un enorme balzo in avanti nel modo in cui i modelli "pensano" e generano testo.

#Cosa è successo

Annunciato questa mattina e balzato rapidamente in cima ad Hacker News, Mercury 2 introduce un cambiamento radicale rispetto alla generazione standard di token. Inception Labs ha applicato con successo i processi di diffusione continua — i principi matematici alla base di generatori di immagini come Midjourney e Stable Diffusion — al dominio discreto del ragionamento in linguaggio naturale.

Invece di prevedere la parola successiva basandosi su quelle precedenti, Mercury 2 incorpora i token in uno spazio latente continuo. Applica quindi un processo di denoising a un'intera sequenza simultaneamente. Questo significa che non si limita a scrivere il suo processo di pensiero parola per parola; valuta l'intera struttura logica in una sola volta, affinando un blocco di rumore in un percorso di ragionamento coerente e altamente accurato e in una risposta finale in una frazione del tempo impiegato dai modelli tradizionali.

#Perché è importante

Le implicazioni per la latenza, l'esperienza utente e lo sviluppo di applicazioni sono profonde.

In un modello autoregressivo tradizionale, se un prompt richiede 2.000 token di ragionamento interno prima di produrre una risposta di 50 token, l'utente (o il sistema) deve attendere che tutti i 2.000 token vengano generati in modo sequenziale. La larghezza di banda della memoria e la capacità di calcolo vengono tassate linearmente in base alla lunghezza della sequenza.

Mercury 2 altera fondamentalmente questa equazione. Utilizzando un raffinamento iterativo parallelo, il modello converge verso l'output ragionato finale in un numero quasi costante di passaggi di diffusione, indipendentemente dalla profondità logica richiesta.

Questo si traduce in una massiccia riduzione del Time-to-First-Token (TTFT) e della latenza di generazione complessiva. Per gli sviluppatori che creano applicazioni in tempo reale — come agenti vocali, strumenti di code review istantanea o generatori di UI dinamici — questo elimina il temuto spinner di "caricamento...". Porta la potenza del ragionamento profondo in ambienti sensibili alla latenza, dove prima era impossibile o economicamente non conveniente implementare estesi modelli CoT.

#Implicazioni Tecniche

Per apprezzare veramente l'ingegneria dietro Mercury 2, dobbiamo guardare sotto il cofano per capire come la diffusione gestisce il testo.

#1. Proiezioni Latenti Continue

I modelli linguistici standard operano su vocabolari discreti. Non è possibile "diffondere" in modo banale un intero discreto che rappresenta una parola. Mercury 2 risolve questo problema proiettando token discreti in uno spazio latente continuo ad alta dimensionalità. Il processo di diffusione — che aggiunge rumore e addestra una rete neurale a invertirlo — opera interamente all'interno di questo dominio continuo prima di proiettare i vettori latenti finali di nuovo in testo leggibile dall'uomo.

#2. Denoising Parallelo vs. Decodifica Sequenziale

Il cambiamento architetturale si comprende meglio osservando i cicli di generazione principali:

# Pseudo-code comparison of generation logic

# Traditional Autoregressive (Slow, O(N))
def generate_autoregressive(prompt, max_tokens):
    context = prompt
    for _ in range(max_tokens):
        next_token = model.forward(context)
        context += next_token
    return context

# Mercury 2 Diffusion (Fast, O(Steps) where Steps << N)
def generate_diffusion(prompt, steps=20):
    latent_sequence = generate_pure_noise()
    for step in reversed(range(steps)):
        latent_sequence = model.denoise(latent_sequence, prompt, step)
    return project_to_text(latent_sequence)

Come illustrato, il ciclo di generazione autoregressivo è limitato dal numero di token ($N$). Il ciclo di Mercury 2 è limitato dal numero di passaggi di denoising, che è completamente disaccoppiato dalla lunghezza della sequenza di output.

#3. Chain-of-Thought Latente

Forse la svolta tecnica più entusiasmante è il "CoT latente". Poiché Mercury 2 opera in uno spazio continuo, i suoi passaggi di ragionamento intermedi non hanno bisogno di mappare a token in inglese leggibili dall'uomo. Può manipolare vettori concettuali astratti, trovando il percorso logico ottimale senza sprecare risorse di calcolo su grammatica, sintassi o formattazione fino al passaggio finale di proiezione.

Architettura	Strategia di Generazione	Complessità Temporale	Mezzo di Ragionamento
Autoregressiva (es., o3)	Sequenziale, Da Sinistra a Destra	$O(N)$ token	CoT a Token Espliciti
Diffusione (Mercury 2)	Parallela, Denoising Iterativo	$O(K)$ passaggi ($K \ll N$)	CoT Latente Continuo

#Cosa ci aspetta

Il rilascio di Mercury 2 rappresenta uno spartiacque per la comunità dell'IA. Dimostra che i Transformer autoregressivi non sono l'unica strada percorribile per il ragionamento avanzato, e innescherà indubbiamente una corsa agli armamenti tra i principali laboratori di IA per sviluppare modelli di testo basati sulla diffusione in competizione tra loro.

In Ichiban Tools stiamo già esplorando come integrare modelli di classe Mercury nelle nostre utility per sviluppatori. Immaginate di ricevere suggerimenti architetturali profondamente ragionati e revisioni di pull request istantanee che appaiono in millisecondi anziché in minuti. Ci aspettiamo anche che la comunità open source tenti rapidamente di replicare questa architettura, portando potenzialmente a modelli di ragionamento locali più piccoli e iper-veloci, in grado di funzionare in modo efficiente su hardware consumer.

#Conclusione

Mercury 2 è molto più di un semplice rilascio di un modello; è un fondamentale cambiamento architetturale. Unendo le profonde capacità di ragionamento dei moderni LLM con la velocità di generazione parallela dei modelli di diffusione, Inception Labs ci ha offerto un assaggio della prossima generazione di intelligenza artificiale. L'era in cui si aspettava che i modelli digitassero lentamente i loro pensieri, token per token, sta per finire. L'era del ragionamento olistico e istantaneo è finalmente arrivata.