Back to Blog

Mercury 2:以扩散模型驱动的最快推理型 LLM

February 25, 2026by Ichiban Team
aimachine-learningdiffusionllmmercury-2performance

Hero

#引言

在过去的近十年里,人工智能领域一直被一种单一的庞大架构所主导:自回归 Transformer(Autoregressive Transformer)。从 GPT-2 到 OpenAI o3 这样最新迭代的推理模型,其核心的生成机制基本保持一致——即每次只预测下一个 Token,进行离散的逐步生成。尽管这种从左到右的顺序生成过程无疑非常强大,但它也造成了无法逾越的延迟瓶颈,尤其是在执行复杂的思维链(Chain-of-Thought, CoT)推理时。

而今天,这一范式正在发生转变。Inception Labs 宣布推出 Mercury 2,打破了这一现状。这款号称全球最快的推理型 LLM 完全由扩散模型(Diffusion Models)驱动。这是在模型如何“思考”和生成文本方面的一次巨大飞跃。

#发生了什么

Mercury 2 于今早发布并迅速登顶 Hacker News,它引入了一种与标准 Token 生成截然不同的激进方法。Inception Labs 成功地将连续的扩散过程(即 Midjourney 和 Stable Diffusion 等图像生成器背后的数学原理)应用到了自然语言推理的离散领域。

Mercury 2 不再基于前面的词来预测下一个词,而是将 Token 嵌入到一个连续的潜在空间(Latent Space)中。然后,它同时对整个序列应用去噪(Denoising)过程。这意味着它不仅不会逐字写出思考过程,还会一次性评估整个逻辑结构,在传统模型所需时间的一小部分内,将一块噪声提炼成连贯、高度准确的推理路径和最终答案。

#为什么这很重要

这对延迟、用户体验和应用开发的影响是深远的。

在传统的自回归模型中,如果一个 Prompt 在输出 50 个 Token 的答案之前需要生成 2,000 个 Token 的内部推理,用户(或系统)必须等待这 2,000 个 Token 依次生成完毕。内存带宽和计算量随着序列长度呈线性增加。

Mercury 2 从根本上改变了这个等式。通过利用并行的迭代求精(Iterative Refinement),无论所需的逻辑深度如何,该模型都能在几乎恒定的扩散步数内收敛到最终的推理输出。

这使得首字延迟(Time-to-First-Token, TTFT)和整体生成延迟大幅降低。对于构建实时应用(如语音助手、即时代码审查工具或动态 UI 生成器)的开发者来说,这消除了令人抓狂的“思考中…”加载动画。它将深度推理的能力带到了对延迟敏感的环境中,而在过去,在这些环境中部署大型 CoT 模型是不可能的,或者在经济上是不可行的。

#技术影响

为了真正领会 Mercury 2 背后的工程设计,我们必须深入了解扩散模型是如何处理文本的。

#1. 连续潜在投影(Continuous Latent Projections)

标准语言模型在离散的词汇表上运行。你不能简单地对代表一个词的离散整数进行“扩散”。Mercury 2 通过将离散 Token 投影到高维连续潜在空间中解决了这个问题。扩散过程——添加噪声并训练神经网络来逆转它——在将最终的潜在向量重新投影回人类可读的文本之前,完全在这个连续域内进行。

#2. 并行去噪 vs. 顺序解码(Parallel Denoising vs. Sequential Decoding)

通过观察核心生成循环,可以最好地理解这种架构转变:

# Pseudo-code comparison of generation logic

# Traditional Autoregressive (Slow, O(N))
def generate_autoregressive(prompt, max_tokens):
    context = prompt
    for _ in range(max_tokens):
        next_token = model.forward(context)
        context += next_token
    return context

# Mercury 2 Diffusion (Fast, O(Steps) where Steps << N)
def generate_diffusion(prompt, steps=20):
    latent_sequence = generate_pure_noise()
    for step in reversed(range(steps)):
        latent_sequence = model.denoise(latent_sequence, prompt, step)
    return project_to_text(latent_sequence)

如图所示,自回归生成循环受限于 Token 数量($N$)。而 Mercury 2 的循环则受限于去噪步数,这与输出序列的长度完全解耦。

#3. 潜在思维链(Latent Chain-of-Thought)

也许最令人兴奋的技术突破是“潜在 CoT(Latent CoT)”。由于 Mercury 2 在连续空间中运行,它的中间推理步骤不需要映射到人类可读的英语 Token。它可以操纵抽象的概念向量,寻找最优逻辑路径,而无需在语法、句法或格式上浪费计算资源,直到最后一步进行投影。

架构生成策略时间复杂度推理媒介
自回归 (例如 o3)顺序,从左到右$O(N)$ 个 Token显式 Token CoT
扩散 (Mercury 2)并行,迭代去噪$O(K)$ 步 ($K \ll N$)连续潜在 CoT

#下一步是什么

Mercury 2 的发布是 AI 社区的一个分水岭。它证明了自回归 Transformer 并不是实现高级推理的唯一可行路径,这也无疑将在各大 AI 实验室之间引发一场军备竞赛,以开发具有竞争力的基于扩散机制的文本模型。

在 Ichiban Tools,我们已经在探索如何将 Mercury 级别的模型集成到我们的开发者工具中。想象一下,瞬间获得经过深度推理的架构建议和 Pull Request 审查,耗时只需几毫秒而不是几分钟。我们还期望开源社区能迅速尝试复现这种架构,这可能会催生出规模更小、速度极快且能在消费级硬件上高效运行的本地推理模型。

#结语

Mercury 2 不仅仅是又一个发布的模型;它是一次根本性的架构重塑。通过将现代 LLM 的深度推理能力与扩散模型的并行生成速度相结合,Inception Labs 让我们瞥见了下一代人工智能的模样。那个等待模型逐字敲出想法的缓慢时代正在结束。瞬时、整体推理的时代终于到来了。