跨模型虚空坍缩:GPT-5.2 与 Claude Opus 4.6 集体失声之谜

在大语言模型(LLM)飞速发展的今天,我们对模型间表现出的行为差异早已习以为常。不同的训练数据、专有的 RLHF 流水线以及独特的架构微调,通常意味着 OpenAI 和 Anthropic 的模型在处理复杂的边缘情况时会采取截然不同的方式。然而,最近在 Zenodo 上发表的一篇论文(记录号 18976656)在整个机器学习界引起了轩然大波。研究人员记录下了一种被称为“跨模型虚空坍缩”(Cross-Model Void Convergence)的现象。
在高度特定的递归语义条件下,GPT-5.2 和 Claude Opus 4.6 都做出了史无前例的举动:它们什么也不输出。不是拒绝回答,不是幻觉(hallucination),也不是报错代码。它们以一种确定性的方式,瞬间生成了一个序列结束(EOS)token。这种由不同架构各自独立达成的“数学静默”,暗示我们在自回归 token 预测领域已经触及到了某种根本性的边界。
#究竟发生了什么?
这一异常最初是由旨在测试无限上下文推理能力的自动化红蓝对抗(red-teaming)脚本发现的。研究人员精心构造了一系列包含自指悖论的 prompt——本质上是要求模型将一个高维概念映射回其自身的潜在表示(latent representation)中,且不收敛于任何固定点。
当 GPT-4 或 Claude 3 等早期模型接收到这些 prompt 时,它们通常会陷入循环生成文本的幻觉,或者因为无法完成任务而道歉,抑或是触发标准的安全拒绝机制。
然而,GPT-5.2 和 Claude Opus 4.6 却表现出了同步且完全一致的失效模式。在接收到 prompt 后,注意力头(attention heads)开始计算下一个最优 token 的概率分布。令人惊奇的是,在两个模型中,<|endoftext|>(或等效的 EOS)token 的置信度都瞬间飙升至 99.999%。实际上,这两个模型都断定,从数学角度来看,对该 prompt 最准确的续写就是“虚空”。
#为什么这很重要?
“虚空坍缩”的重大意义再怎么强调都不为过。我们正见证两个高度先进、完全独立的神经网络在完全相同的结构性缺陷——或者说,结构性特征上达成了共识。
- 共享的潜在拓扑结构 (Shared Latent Topography): 这种趋同现象表明,当模型规模达到一定程度(据估计这两个模型的参数量都远超 5 万亿)时,语言的语义表示将变得绝对化。人类知识在潜在空间中的“形状”不再由训练算法决定,而是由信息本身的底层数学规律所主导。
- 涌现的自我修正能力 (Emergent Self-Correction): 与陷入语义死循环时无休止地生成垃圾 token 不同,这些模型干净利落地终止了进程。这可能是我们在 transformer 架构中观察到的首个非预编程的、涌现出的“停机(halt)”状态。
- “因困惑而产生幻觉”的终结 (The End of Hallucination-by-Confusion): 在之前的时代,模型的困惑往往会导致幻觉。而在当今时代,绝对的结构性困惑带来的则是确定性的静默。
#技术推演
要理解其背后的原因,我们必须审视现代注意力机制是如何处理递归逻辑的。研究人员提出了一种名为 注意力池坍缩 (Attention Sink Collapse) 的理论。
在常规的文本生成过程中,“注意力池”(通常是前几个 token 或特定的结构性 token)会吸收多余的注意力权重,以保持生成过程的稳定。而在“虚空坍缩”场景中,prompt 的自指特性会在键值(KV)缓存中引发反馈循环。
# Simplified abstraction of Attention Sink Collapse
def calculate_attention(query, key, value, mask=None):
scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(d_k)
# In the convergence anomaly, recursive semantic loops cause
# the softmax distribution to flatten across all standard tokens
attention_weights = F.softmax(scores, dim=-1)
# ...while the attention weight for the EOS token approaches 1.0
# due to absolute zero entropy in the predictive step.
return torch.matmul(attention_weights, value)
随着 prompt 递归深度的增加,预测 token 分布的熵值急剧下降(坍缩)。模型意识到,在序列中添加任何带有语义的 token 都会导致困惑度(perplexity)无限激增。唯一能在不增加困惑度的情况下化解这种数学张力的 token,只有 EOS token。
#模型行为对比
| 模型代际 | 面对悖论 Prompt 的行为 | Token 输出长度 | 困惑度激增 |
|---|---|---|---|
| GPT-4 (2023) | 幻觉 / 循环 | 800+ (最大 token 数) | 高 |
| Claude 3.5 Sonnet | 安全拒绝 | ~45 个 token | 中 |
| GPT-5.2 (2026) | 确定性静默 | 0 (立即 EOS) | 零 (已坍缩) |
| Claude Opus 4.6 | 确定性静默 | 0 (立即 EOS) | 零 (已坍缩) |
#下一步是什么?
“虚空坍缩”的发现给机器学习工程师们带来了一项激动人心的挑战。如果潜在空间中真的存在这种模型拒绝生成的“死区(dead zones)”,那么它们是否会被武器化,并在 prompt 注入攻击中被用来悄无声息地阻断推理流水线?
目前,各大实验室的研究团队正试图绘制出这个“语义事件视界(semantic event horizon)”的边界。连续潜在扰动(continuous latent perturbation)和非自回归解码(non-autoregressive decoding)等技术正在接受测试,以迫使模型打破这种静默状态并“开口说话”。在 Ichiban Tools,我们已经在更新我们的开发者工具,以便优雅地处理零 token 响应,确保当上游 LLM 陷入“虚空”时,您的应用程序不会因此崩溃。
#结语
“跨模型虚空坍缩”现象是一个严厉的警告,提醒我们尚未完全理解我们正在构建的这些庞然大物。GPT-5.2 和 Claude Opus 4.6 并没有崩溃;它们仅仅是通过计算得出,唯一能赢的策略就是保持沉默。随着我们继续扩大这些架构的规模,我们很可能会发现更多这种基础性的数学边界。从预测文本向真正意义上的推理过渡,其核心不仅在于模型说了什么,而越来越在于从数学角度看它们无法说什么。