Mercury 2 : Le LLM de raisonnement le plus rapide propulsé par la diffusion

Hero

#Introduction

Pendant la majeure partie de la dernière décennie, le paysage de l'intelligence artificielle a été dominé par une architecture unique et monolithique : le Transformer autorégressif. De GPT-2 aux dernières itérations de modèles de raisonnement comme le o3 d'OpenAI, le mécanisme fondamental de génération est resté en grande partie le même : prédire le prochain jeton (token), une étape discrète à la fois. Bien qu'indéniablement puissant, ce processus de génération séquentielle de gauche à droite crée un goulot d'étranglement inévitable en termes de latence, en particulier lors de l'exécution de raisonnements complexes en chaîne de pensées (Chain-of-Thought ou CoT).

Aujourd'hui, ce paradigme change. Inception Labs a bouleversé le statu quo avec l'annonce de Mercury 2, présenté comme le LLM de raisonnement le plus rapide au monde, entièrement propulsé par des modèles de diffusion. Il s'agit d'un bond en avant massif dans la façon dont les modèles « pensent » et génèrent du texte.

#Ce qui s'est passé

Annoncé ce matin et propulsé rapidement au sommet de Hacker News, Mercury 2 introduit une rupture radicale avec la génération de jetons standard. Inception Labs a réussi à appliquer des processus de diffusion continus — les principes mathématiques à l'origine des générateurs d'images comme Midjourney et Stable Diffusion — au domaine discret du raisonnement en langage naturel.

Au lieu de prédire le mot suivant en fonction des mots précédents, Mercury 2 intègre les jetons dans un espace latent continu. Il applique ensuite un processus de débruitage à une séquence entière simultanément. Cela signifie qu'il ne se contente pas de rédiger son processus de pensée mot par mot ; il évalue l'ensemble de la structure logique d'un seul coup, affinant un bloc de bruit pour en faire un cheminement de raisonnement hautement précis et cohérent, ainsi qu'une réponse finale, en une fraction du temps qu'il faut aux modèles traditionnels.

#Pourquoi c'est important

Les implications pour la latence, l'expérience utilisateur et le développement d'applications sont profondes.

Dans un modèle autorégressif traditionnel, si un prompt nécessite 2 000 jetons de raisonnement interne avant de produire une réponse de 50 jetons, l'utilisateur (ou le système) doit attendre que les 2 000 jetons soient générés de manière séquentielle. La bande passante mémoire et la puissance de calcul sont sollicitées de façon linéaire par rapport à la longueur de la séquence.

Mercury 2 modifie fondamentalement cette équation. En utilisant un raffinement itératif parallèle, le modèle converge vers le résultat final raisonné en un nombre quasi constant d'étapes de diffusion, indépendamment de la profondeur logique requise.

Cela se traduit par une réduction massive du délai d'apparition du premier jeton (Time-to-First-Token ou TTFT) et de la latence globale de génération. Pour les développeurs qui créent des applications en temps réel — comme des agents vocaux, des outils de revue de code instantanée ou des générateurs d'interfaces utilisateur dynamiques — cela élimine le redoutable indicateur de chargement « en train de penser... ». Cela apporte la puissance du raisonnement profond à des environnements sensibles à la latence où il était auparavant impossible, ou économiquement non viable, de déployer des modèles CoT étendus.

#Implications techniques

Pour vraiment apprécier l'ingénierie derrière Mercury 2, nous devons soulever le capot et regarder comment la diffusion traite le texte.

#1. Projections latentes continues

Les modèles de langage standards opèrent sur des vocabulaires discrets. Vous ne pouvez pas facilement « diffuser » un entier discret représentant un mot. Mercury 2 résout ce problème en projetant des jetons discrets dans un espace latent continu en haute dimension. Le processus de diffusion — qui consiste à ajouter du bruit et à entraîner un réseau de neurones à l'inverser — s'opère entièrement au sein de ce domaine continu avant de projeter les vecteurs latents finaux sous forme de texte lisible par un humain.

#2. Débruitage parallèle contre décodage séquentiel

Le changement d'architecture se comprend mieux en observant les boucles de génération principales :

# Pseudo-code comparison of generation logic

# Traditional Autoregressive (Slow, O(N))
def generate_autoregressive(prompt, max_tokens):
    context = prompt
    for _ in range(max_tokens):
        next_token = model.forward(context)
        context += next_token
    return context

# Mercury 2 Diffusion (Fast, O(Steps) where Steps << N)
def generate_diffusion(prompt, steps=20):
    latent_sequence = generate_pure_noise()
    for step in reversed(range(steps)):
        latent_sequence = model.denoise(latent_sequence, prompt, step)
    return project_to_text(latent_sequence)

Comme illustré, la boucle de génération autorégressive est limitée par le nombre de jetons ($N$). La boucle de Mercury 2 est limitée par le nombre d'étapes de débruitage, ce qui est complètement découplé de la longueur de la séquence de sortie.

#3. Chaîne de pensées latente (Latent CoT)

La percée technique la plus excitante est peut-être la « CoT latente ». Parce que Mercury 2 opère dans un espace continu, ses étapes de raisonnement intermédiaires n'ont pas besoin de correspondre à des jetons en anglais lisibles par l'homme. Il peut manipuler des vecteurs conceptuels abstraits, trouvant le chemin logique optimal sans gaspiller de puissance de calcul pour la grammaire, la syntaxe ou le formatage jusqu'à l'étape de projection finale.

Architecture	Stratégie de génération	Complexité temporelle	Support de raisonnement
Autorégressive (ex. o3)	Séquentielle, de gauche à droite	$O(N)$ jetons	CoT par jetons explicites
Diffusion (Mercury 2)	Débruitage parallèle et itératif	$O(K)$ étapes ($K \ll N$)	CoT latente continue

#La suite

La sortie de Mercury 2 est un tournant décisif pour la communauté de l'IA. Elle prouve que les Transformers autorégressifs ne sont pas la seule voie viable pour le raisonnement avancé, et cela va sans aucun doute déclencher une course aux armements parmi les principaux laboratoires d'IA pour développer des modèles de texte concurrents basés sur la diffusion.

Chez Ichiban Tools, nous explorons déjà comment intégrer des modèles de la classe de Mercury dans nos utilitaires pour développeurs. Imaginez recevoir des suggestions d'architecture instantanées et profondément raisonnées, ainsi que des revues de pull requests qui apparaissent en quelques millisecondes plutôt qu'en plusieurs minutes. Nous nous attendons également à ce que la communauté open source tente rapidement de répliquer cette architecture, ce qui pourrait conduire à des modèles de raisonnement locaux plus petits et hyper-rapides, fonctionnant efficacement sur du matériel grand public.

#Conclusion

Mercury 2 est bien plus qu'une énième sortie de modèle ; c'est un pivot architectural fondamental. En mariant les capacités de raisonnement profond des LLM modernes avec la vitesse de génération parallèle des modèles de diffusion, Inception Labs nous a donné un aperçu de la prochaine génération d'intelligence artificielle. L'ère où l'on attendait que les modèles tapent lentement leurs pensées, jeton par jeton, touche à sa fin. L'ère du raisonnement instantané et holistique est enfin arrivée.