Mercury 2：以扩散模型驱动的最快推理型 LLM

Hero

#引言

在过去的近十年里，人工智能领域一直被一种单一的庞大架构所主导：自回归 Transformer（Autoregressive Transformer）。从 GPT-2 到 OpenAI o3 这样最新迭代的推理模型，其核心的生成机制基本保持一致——即每次只预测下一个 Token，进行离散的逐步生成。尽管这种从左到右的顺序生成过程无疑非常强大，但它也造成了无法逾越的延迟瓶颈，尤其是在执行复杂的思维链（Chain-of-Thought, CoT）推理时。

而今天，这一范式正在发生转变。Inception Labs 宣布推出 Mercury 2，打破了这一现状。这款号称全球最快的推理型 LLM 完全由扩散模型（Diffusion Models）驱动。这是在模型如何“思考”和生成文本方面的一次巨大飞跃。

#发生了什么

Mercury 2 于今早发布并迅速登顶 Hacker News，它引入了一种与标准 Token 生成截然不同的激进方法。Inception Labs 成功地将连续的扩散过程（即 Midjourney 和 Stable Diffusion 等图像生成器背后的数学原理）应用到了自然语言推理的离散领域。

Mercury 2 不再基于前面的词来预测下一个词，而是将 Token 嵌入到一个连续的潜在空间（Latent Space）中。然后，它同时对整个序列应用去噪（Denoising）过程。这意味着它不仅不会逐字写出思考过程，还会一次性评估整个逻辑结构，在传统模型所需时间的一小部分内，将一块噪声提炼成连贯、高度准确的推理路径和最终答案。

#为什么这很重要

这对延迟、用户体验和应用开发的影响是深远的。

在传统的自回归模型中，如果一个 Prompt 在输出 50 个 Token 的答案之前需要生成 2,000 个 Token 的内部推理，用户（或系统）必须等待这 2,000 个 Token 依次生成完毕。内存带宽和计算量随着序列长度呈线性增加。

Mercury 2 从根本上改变了这个等式。通过利用并行的迭代求精（Iterative Refinement），无论所需的逻辑深度如何，该模型都能在几乎恒定的扩散步数内收敛到最终的推理输出。

这使得首字延迟（Time-to-First-Token, TTFT）和整体生成延迟大幅降低。对于构建实时应用（如语音助手、即时代码审查工具或动态 UI 生成器）的开发者来说，这消除了令人抓狂的“思考中…”加载动画。它将深度推理的能力带到了对延迟敏感的环境中，而在过去，在这些环境中部署大型 CoT 模型是不可能的，或者在经济上是不可行的。

#技术影响

为了真正领会 Mercury 2 背后的工程设计，我们必须深入了解扩散模型是如何处理文本的。

#1. 连续潜在投影（Continuous Latent Projections）

标准语言模型在离散的词汇表上运行。你不能简单地对代表一个词的离散整数进行“扩散”。Mercury 2 通过将离散 Token 投影到高维连续潜在空间中解决了这个问题。扩散过程——添加噪声并训练神经网络来逆转它——在将最终的潜在向量重新投影回人类可读的文本之前，完全在这个连续域内进行。

#2. 并行去噪 vs. 顺序解码（Parallel Denoising vs. Sequential Decoding）

通过观察核心生成循环，可以最好地理解这种架构转变：

# Pseudo-code comparison of generation logic

# Traditional Autoregressive (Slow, O(N))
def generate_autoregressive(prompt, max_tokens):
    context = prompt
    for _ in range(max_tokens):
        next_token = model.forward(context)
        context += next_token
    return context

# Mercury 2 Diffusion (Fast, O(Steps) where Steps << N)
def generate_diffusion(prompt, steps=20):
    latent_sequence = generate_pure_noise()
    for step in reversed(range(steps)):
        latent_sequence = model.denoise(latent_sequence, prompt, step)
    return project_to_text(latent_sequence)

如图所示，自回归生成循环受限于 Token 数量（$N$）。而 Mercury 2 的循环则受限于去噪步数，这与输出序列的长度完全解耦。

#3. 潜在思维链（Latent Chain-of-Thought）

也许最令人兴奋的技术突破是“潜在 CoT（Latent CoT）”。由于 Mercury 2 在连续空间中运行，它的中间推理步骤不需要映射到人类可读的英语 Token。它可以操纵抽象的概念向量，寻找最优逻辑路径，而无需在语法、句法或格式上浪费计算资源，直到最后一步进行投影。

架构	生成策略	时间复杂度	推理媒介
自回归 (例如 o3)	顺序，从左到右	$O(N)$ 个 Token	显式 Token CoT
扩散 (Mercury 2)	并行，迭代去噪	$O(K)$ 步 ($K \ll N$)	连续潜在 CoT

#下一步是什么

Mercury 2 的发布是 AI 社区的一个分水岭。它证明了自回归 Transformer 并不是实现高级推理的唯一可行路径，这也无疑将在各大 AI 实验室之间引发一场军备竞赛，以开发具有竞争力的基于扩散机制的文本模型。

在 Ichiban Tools，我们已经在探索如何将 Mercury 级别的模型集成到我们的开发者工具中。想象一下，瞬间获得经过深度推理的架构建议和 Pull Request 审查，耗时只需几毫秒而不是几分钟。我们还期望开源社区能迅速尝试复现这种架构，这可能会催生出规模更小、速度极快且能在消费级硬件上高效运行的本地推理模型。

#结语

Mercury 2 不仅仅是又一个发布的模型；它是一次根本性的架构重塑。通过将现代 LLM 的深度推理能力与扩散模型的并行生成速度相结合，Inception Labs 让我们瞥见了下一代人工智能的模样。那个等待模型逐字敲出想法的缓慢时代正在结束。瞬时、整体推理的时代终于到来了。