Mercury 2: Das schnellste Reasoning-LLM auf Basis von Diffusion

Hero

#Einführung

Für den Großteil des letzten Jahrzehnts wurde die Landschaft der künstlichen Intelligenz von einer einzigen, monolithischen Architektur dominiert: dem autoregressiven Transformer. Von GPT-2 bis hin zu den neuesten Iterationen von Reasoning-Modellen wie OpenAI's o3 ist der grundlegende Generierungsmechanismus weitgehend identisch geblieben – die Vorhersage des nächsten Tokens, in diskreten, aufeinanderfolgenden Schritten. Obwohl dieser sequenzielle Generierungsprozess von links nach rechts unbestreitbar leistungsstark ist, führt er zu einem unausweichlichen Latenzengpass, insbesondere bei der Ausführung komplexer Chain-of-Thought (CoT) Reasoning-Aufgaben.

Heute ändert sich dieses Paradigma. Inception Labs hat den Status quo mit der Ankündigung von Mercury 2 durchbrochen, das als das weltweit schnellste Reasoning-LLM vermarktet wird und vollständig von Diffusionsmodellen angetrieben wird. Dies stellt einen massiven Sprung in der Art und Weise dar, wie Modelle "denken" und Text generieren.

#Was passiert ist

Mercury 2, das heute Morgen angekündigt wurde und schnell die Spitze von Hacker News eroberte, stellt eine radikale Abkehr von der standardmäßigen Token-Generierung dar. Inception Labs hat erfolgreich kontinuierliche Diffusionsprozesse – die mathematischen Prinzipien hinter Bildgeneratoren wie Midjourney und Stable Diffusion – auf den diskreten Bereich des natürlichen Sprach-Reasonings angewendet.

Anstatt das nächste Wort basierend auf den vorherigen Wörtern vorherzusagen, bettet Mercury 2 Tokens in einen kontinuierlichen latenten Raum ein. Anschließend wendet es einen Denoising-Prozess gleichzeitig auf eine gesamte Sequenz an. Das bedeutet, dass es seinen Denkprozess nicht einfach Wort für Wort niederschreibt; es bewertet die gesamte logische Struktur auf einmal und verfeinert einen Block aus Rauschen in einen kohärenten, hochpräzisen Argumentationspfad und eine endgültige Antwort – und das in einem Bruchteil der Zeit, die herkömmliche Modelle benötigen.

#Warum es wichtig ist

Die Auswirkungen auf Latenz, User Experience und die Anwendungsentwicklung sind tiefgreifend.

In einem traditionellen autoregressiven Modell muss der Benutzer (oder das System), wenn ein Prompt 2.000 Token internes Reasoning erfordert, bevor eine 50-Token-Antwort ausgegeben wird, darauf warten, dass alle 2.000 Token nacheinander generiert werden. Speicherbandbreite und Rechenleistung (Compute) werden linear zur Sequenzlänge beansprucht.

Mercury 2 ändert diese Gleichung grundlegend. Durch die Nutzung paralleler, iterativer Verfeinerung konvergiert das Modell auf die finale begründete Ausgabe in einer nahezu konstanten Anzahl von Diffusionsschritten, unabhängig von der erforderlichen logischen Tiefe.

Dies führt zu einer massiven Reduzierung der Time-to-First-Token (TTFT) und der allgemeinen Generierungslatenz. Für Entwickler, die Echtzeitanwendungen erstellen – wie z. B. Voice Agents, sofortige Code-Review-Tools oder dynamische UI-Generatoren – entfällt der gefürchtete "Thinking..."-Spinner. Es bringt die Leistungsfähigkeit von Deep Reasoning in latenzempfindliche Umgebungen, in denen es zuvor unmöglich oder wirtschaftlich unrentabel war, umfangreiche CoT-Modelle bereitzustellen.

#Technische Implikationen

Um die Technik hinter Mercury 2 wirklich zu würdigen, müssen wir uns ansehen, wie Diffusion Text verarbeitet.

#1. Kontinuierliche latente Projektionen

Standard-Sprachmodelle arbeiten mit diskreten Vokabularien. Man kann eine diskrete Ganzzahl, die ein Wort repräsentiert, nicht ohne Weiteres "diffundieren". Mercury 2 löst dieses Problem, indem es diskrete Token in einen hochdimensionalen, kontinuierlichen latenten Raum projiziert. Der Diffusionsprozess – das Hinzufügen von Rauschen und das Trainieren eines neuronalen Netzes, um dies umzukehren – operiert vollständig innerhalb dieses kontinuierlichen Bereichs, bevor die finalen latenten Vektoren wieder in für Menschen lesbaren Text zurückprojiziert werden.

#2. Paralleles Denoising vs. Sequenzielle Dekodierung

Die architektonische Verschiebung lässt sich am besten verdeutlichen, wenn man die zentralen Generierungsschleifen betrachtet:

# Pseudo-code comparison of generation logic

# Traditional Autoregressive (Slow, O(N))
def generate_autoregressive(prompt, max_tokens):
    context = prompt
    for _ in range(max_tokens):
        next_token = model.forward(context)
        context += next_token
    return context

# Mercury 2 Diffusion (Fast, O(Steps) where Steps << N)
def generate_diffusion(prompt, steps=20):
    latent_sequence = generate_pure_noise()
    for step in reversed(range(steps)):
        latent_sequence = model.denoise(latent_sequence, prompt, step)
    return project_to_text(latent_sequence)

Wie dargestellt, ist die autoregressive Generierungsschleife durch die Anzahl der Token ($N$) begrenzt. Die Schleife von Mercury 2 hingegen ist durch die Anzahl der Denoising-Schritte begrenzt, was vollständig von der Ausgabesequenzlänge entkoppelt ist.

#3. Latentes Chain-of-Thought

Der vielleicht aufregendste technische Durchbruch ist "Latent CoT". Da Mercury 2 in einem kontinuierlichen Raum operiert, müssen seine Zwischenschritte beim Reasoning nicht auf lesbare englische Tokens abgebildet werden. Es kann abstrakte konzeptionelle Vektoren manipulieren und den optimalen logischen Pfad finden, ohne Rechenleistung für Grammatik, Syntax oder Formatierung zu verschwenden, bis der finale Projektionsschritt erreicht ist.

Architecture	Generation Strategy	Time Complexity	Reasoning Medium
Autoregressive (e.g., o3)	Sequential, Left-to-Right	$O(N)$ tokens	Explicit Token CoT
Diffusion (Mercury 2)	Parallel, Iterative Denoising	$O(K)$ steps ($K \ll N$)	Continuous Latent CoT

#Was kommt als Nächstes

Die Veröffentlichung von Mercury 2 ist ein Wendepunkt für die KI-Community. Sie beweist, dass autoregressive Transformer nicht der einzige praktikable Weg für fortschrittliches Reasoning sind, und sie wird zweifellos ein Wettrüsten unter den großen KI-Laboren auslösen, um konkurrierende diffusionsbasierte Textmodelle zu entwickeln.

Wir bei Ichiban Tools untersuchen bereits, wie wir Modelle der Mercury-Klasse in unsere Entwickler-Utilities integrieren können. Stellen Sie sich vor, Sie erhalten sofortige, tiefgründig durchdachte Architekturvorschläge und Pull-Request-Reviews, die in Millisekunden statt in Minuten erscheinen. Wir erwarten auch, dass die Open-Source-Community schnell versuchen wird, diese Architektur nachzubauen, was möglicherweise zu kleineren, hyperschnellen lokalen Reasoning-Modellen führt, die effizient auf Consumer-Hardware laufen.

#Fazit

Mercury 2 ist mehr als nur ein weiteres neues Modell; es ist ein grundlegender architektonischer Wendepunkt. Durch die Verbindung der tiefgreifenden Reasoning-Fähigkeiten moderner LLMs mit der parallelen Generierungsgeschwindigkeit von Diffusionsmodellen hat uns Inception Labs einen Einblick in die nächste Generation der künstlichen Intelligenz gegeben. Die Ära, in der wir darauf warten mussten, dass Modelle ihre Gedanken langsam Token für Token abtippen, geht zu Ende. Das Zeitalter des sofortigen, ganzheitlichen Reasonings ist endlich angebrochen.