打破数据墙:David Silver 融资 11 亿美元,打造无人类干预的 AI 学习

#引言
过去五年间,人工智能的发展轨迹在很大程度上被一个永无止境的指标所主导:人类生成数据的规模。从早期的 GPT 迭代到如今的多模态巨头,我们的模型一直是在全人类留下的海量数字痕迹上进行训练的。但我们正在快速逼近一个硬性的物理极限,业内通常称之为“数据墙”(Data Wall)。世界上高质量的文本、代码和多媒体内容是有限的,而按照我们目前的速度,很快就会将它们消耗殆尽。
此时,David Silver 挺身而出。这位前 DeepMind 研究员——作为 AlphaGo、AlphaZero 和 MuZero 背后的首席架构师而享誉全球——刚刚采取了一项可能重新定义下一代 AI 的震撼举措。昨日消息传出,Silver 已经筹集了高达 11 亿美元的资金,用于创立一家新公司。该公司的目标聚焦于一个极具革命性的前提:构建完全不依赖人类数据进行学习的人工智能。
#事件回顾
据 TechCrunch 最新报道,Silver 处于隐匿模式的初创公司已成功完成 11 亿美元的融资,吸引了顶尖风投机构和行业战略合作伙伴的巨额资本。尽管该公司的名称和具体的产品路线图仍是高度机密,但其核心使命却无比清晰。他们正在摆脱在人类数据集上进行大规模监督学习的范式,全面转向自主学习环境。
考虑到 Silver 的背景,这绝非又一个典型的硅谷“登月计划”(moonshot)。他在 DeepMind 的开创性工作证明了,通过自我对弈(self-play)进行的强化学习(RL),不仅能够匹敌,甚至能彻底碾压人类在围棋和国际象棋等复杂且受限环境中的专业水平。以 AlphaZero 为例,系统并没有被输入人类棋谱数据库;它只是被赋予了棋盘规则,然后让其与自己进行数百万次对弈。在这个过程中,它发现了人类几千年来都未曾构想出的策略。现在的目标是,将这种自学方法推广到棋盘之外,应用于真实世界的场景。
#为什么这很重要
要理解这一进展的巨大意义,我们必须审视当前 AI 缩放定律(Scaling Laws)所面临的瓶颈。目前的主流范式严重依赖于监督微调(SFT)和基于人类反馈的强化学习(RLHF)。这种方法存在三个致命且不可避免的缺陷:
- 有限的供应量: 高质量的人类数据是一种有限资源。研究预测,我们可能会在未来十年内耗尽互联网上原始训练文本的储备,从而导致更大规模模型的边际收益递减。
- 人类偏见与局限性: 纯粹基于人类数据训练的模型,天生受限于人类的能力。它们会继承我们的认知偏见、逻辑谬误,最重要的是,还会继承我们的性能上限。
- 经济与法律摩擦: 抓取、清洗和精细标注海量数据集的成本高昂,且越来越容易引发版权侵权和许可纠纷。
通过将学习过程与人类数据完全解耦,Silver 的新公司旨在打破这一性能上限。如果 AI 能够通过自我对弈和与环境交互(而非仅仅通过模仿)来学习通用推理、物理学或复杂的软件工程,那么它的潜在智能在理论上是无上限的。
#技术影响
从数据驱动的大型语言模型(LLM)向自主强化学习智能体转型,需要底层架构的根本性转变。工程师们面临的首要问题是:如何将 AlphaZero 的方法论应用于开放式的现实世界问题?
#奖励函数瓶颈
在围棋这样的游戏中,奖励函数极其优雅简单:赢(+1)或输(-1)。但在通用智能任务中,定义数学化的奖励函数是出了名的困难。如果没有人类工程师参与,你如何对模型编写的高度优化的微服务或安全配置的云环境进行自动评分?
我们预计这家新公司将斥巨资构建可验证的模拟环境。模型不再是在静态文本数据集中预测下一个 token,而是在编译器、物理引擎或模拟的网络沙盒中输出行为,并基于可验证的功能性成功来获得内部奖励(例如:“代码编译成功了吗?”、“通过测试用例了吗?”、“执行时间在 10 毫秒以内吗?”)。
#自我对弈与监督学习的对比
| 特性 | 监督学习(当前的 LLMs) | 自我对弈强化学习 |
|---|---|---|
| 主要输入 | 海量人工整理的数据集(Common Crawl, GitHub) | 环境规则、约束条件和沙盒反馈 |
| 学习机制 | Next-token 预测,模仿学习 | 试错,策略优化,状态评估 |
| 性能上限 | 严格受限于现有最优秀的人类数据 | 理论上无上限(可实现超人类的发现) |
| 算力消耗阶段 | 在初始预训练阶段极其庞大 | 在持续训练和运行时生成(搜索)阶段极为庞大 |
#算法创新
为实现这一目标,我们很可能会看到像**蒙特卡洛树搜索(MCTS)**这类算法的高级实现被直接集成到神经网络的推理阶段。这允许模型在决定路径之前“思考”并模拟多种分支结果。这与最近推理模型的发展趋势相呼应,但它被推向了极致:模型可以动态地生成自己详尽的训练课程。
#展望未来
在创立初期就融资 11 亿美元释放了一个明确的信号:这种方法的基础基础设施将极其消耗算力。在高度复杂的环境中从零开始训练一个通用的强化学习智能体需要 Exaflop 级别(百亿亿次浮点运算)的处理能力,这些算力可能被专门用于同时运行数百万次模拟,而不是处理静态文本文件。
在接下来的 12 到 18 个月内,业界预计将会看到:
- 大规模算力采购: 这家初创公司可能会获取并部署一个庞大的、由下一代 AI 加速器组成的专用集群,并针对高度并行的模拟进行优化。
- 垂直领域的 Alpha 突破: 首个概念验证几乎肯定不会是通用的消费者聊天机器人。它更可能是一个专精于具备可验证、客观结果领域的智能体,例如自动定理证明、高级软件合成或复杂的分子发现。
- 合成验证的崛起: 我们预计,用于在数学上验证 AI 输出的开源工具和企业级工具将会激增,为这种新型训练提供必要的自动化、高保真奖励信号。
#总结
David Silver 高达 11 亿美元的巨额押注标志着人工智能历史上的一个关键转折点。我们正在见证首次投入重金的尝试:将 AI 从模仿人类互联网历史的“随机鹦鹉”(stochastic parrot),转变为从第一性原理出发探索新知识的自主探索者。
对于开发者和软件工程师而言,这预示着这样一个未来:AI 工具可能不再仅仅基于抓取的 Stack Overflow 代码片段来自动补全语法,而是通过严格的自我对弈,主动发明出全新的、数学上高度优化的算法。数据墙犹如阴霾般笼罩着整个行业,但如果 Silver 过去的辉煌战绩能说明什么的话,那可能是:我们或许根本不需要人类数据,就能直接将它打破。