FSF 就版权侵权问题警告 Anthropic：推动 LLM 走向自由开源

Hero

#引言

人工智能与开源许可之间的交集，一直像个随时可能引爆的火药桶。今天，引线似乎被点燃了。自由软件基金会（FSF）正式向广泛使用的 Claude 系列模型背后的创造者 Anthropic 发出法律行动威胁，指控其涉嫌版权侵权。该基金会的核心诉求规模史无前例：要求将其大型语言模型（LLM）的权重和训练数据以自由软件许可证发布。随着 AI 模型如何消费、处理和输出受各种 copyleft（著佐权）协议保护的代码与文本的争论日益激烈，这一事态发展标志着冲突的重大升级。

#事件始末

根据 FSF 最近发布的一份公告（该公告迅速登顶 Hacker News 讨论榜），基金会声称已掌握确凿证据，证明 Anthropic 的模型在未经遵守严格许可义务的情况下，使用了大量基于 GPL 协议的代码进行训练。

GPL（GNU 通用公共许可证）及类似的 copyleft 协议规定，任何向公众分发的衍生作品都必须以完全相同的条款发布。FSF 的论点核心在于：基于 GPL 代码训练的 LLM，本质上就是该代码的衍生作品。此外，当模型生成的代码片段与训练数据高度相似或直接复制时，FSF 认为这就构成了在没有正确署名或许可的情况下分发该衍生作品。

Anthropic 以及大多数主流 AI 实验室一直以来的辩护理由是：在公开可用的数据（包括受版权保护的代码库）上训练 AI 模型，完全符合美国版权法中的“合理使用”（fair use）条款。FSF 的法律威胁直击这一辩护的软肋，要求如果 Anthropic 继续提供基于自由软件训练的模型的商业访问权限，那么这些模型本身——包括数十亿的参数和特定的训练数据组合——都必须免费向社区开放共享。

#意义何在

对于在日常工作流中使用 AI 的开发者、研究人员和企业来说，这场冲突的影响至关重要。

“合理使用”的保护伞可能破裂： 如果 FSF 的解释在法庭上站得住脚，或者迫使双方达成重大和解，目前保护整个生成式 AI 行业的“合理使用”辩护可能会崩溃。这将从根本上改变构建基础模型的经济和法律基础，可能让近年来我们看到的快速发展戛然而止。
重新定义衍生作品： 在神经网络时代，关于什么构成衍生作品，我们正在进入一个完全未知的法律领域。由数十亿浮点数组成的多维矩阵，究竟是它所吸收的人类可读代码的衍生品，还是一个完全全新的、变革性的实体？法律体系尚未给出明确答案。
推动真正的开源 AI： 真正的开源 AI 目前依然稀缺；大型科技公司发布的绝大多数“开源”模型，要么在商业用途上带有极其严格的许可限制，要么完全掩盖其训练数据。FSF 的胜利可能会引发一波真正开源模型的浪潮，实现技术普惠的同时，也会动摇当前 AI 巨头们利润丰厚的商业模式。

#技术影响

从软件工程和系统架构的角度来看，满足 FSF 诉求的技术复杂性令人咋舌，甚至挑战了当前机器学习能力的极限。

#1. 数据溯源与机器遗忘

如果一个模型被判定侵权，仅仅从训练数据库中删除原始源代码库是远远不够的。该代码的语法和语义知识已经深深编码在模型的权重之中。

机器遗忘 (Machine Unlearning)： 开发可靠的算法，让预训练模型“遗忘”特定的数据片段，同时又不严重降低其整体性能和推理能力，这仍然是一个活跃但尚未解决的研究领域。
归属追踪 (Attribution Tracking)： 考虑到 LLM 是在概念层面合成信息，而非单纯从记忆中检索，要建立一种机制，将生成的代码片段准确追溯到训练数据中的源头，难度极大。

#2. 权重与基础设施的许可

如何在法律上将 GPL 许可证应用于一个庞大的张量 (Tensor)？GPL 最初是为人类可读的源代码设计的。如果我们把模型权重视为“编译后的二进制文件”，把训练数据和脚本视为“源代码”，FSF 的要求意味着 Anthropic 必须发布生成该模型所使用的确切数据集和完整的训练基础设施。

组件	现状 (专有 AI)	FSF 诉求状态 (Copyleft AI)
训练数据	私有，无差别抓取	公开，完全可审计，选择性加入/已授权
训练代码	高度保密的商业机密	公开授权 (兼容 GPL)
模型权重	封闭在专有 API 背后	可公开下载和修改
推理引擎	专有的 SaaS 基础设施	开源部署工具

#3. 企业代码污染的威胁

对于企业软件开发者而言，“许可证污染”的恐惧是一个巨大的隐患。如果工程师使用专有 AI 助手生成了一个核心工具函数，而该函数后来被证明是直接照搬了 GPL 代码，那么整个专有代码库在理论上都会面临法律风险，并可能被迫开源。这就需要高度复杂的输出扫描工具，而目前这类工具还无法大规模应用。

#未来展望

球现在踢到了 Anthropic 这边。在正式的诉讼程序启动之前，他们回应 FSF 诉求的窗口期十分有限。

和解与过滤： Anthropic 可能会试图通过部署激进的输出过滤器来平息争端，这些过滤器在理论上可以防止生成与受保护代码一字不差的内容。然而，FSF 通常认为这只是一种治标不治本的创可贴方案，无法解决训练阶段已经发生的根本性侵权问题。
具有里程碑意义的法律战： 如果事件升级到对簿公堂，这无疑将成为软件行业的一个里程碑案件。它可能需要数年时间才能解决，并一路上诉到最高法院，要求法官们去理解关于神经网络架构和高维数据压缩的极其艰深的技术概念。
训练范式的转变： 无论眼前的结果如何，我们预计 AI 公司在数据管道的处理上会变得更加谨慎和透明。我们可能会看到更多体积更小、效率极高的模型涌现，它们将完全基于宽松许可（如 MIT、Apache）或明确处于公共领域的数据集进行训练，哪怕这会导致代码生成能力出现短暂的下降。

#结语

自由软件基金会与 Anthropic 之间的冲突，远不止是一场关于许可条款的法律口水战；它是两种哲学的根本碰撞。一方是商业人工智能开发对数据永不满足的狂热追求；另一方则是成功构建了现代互联网骨干的自由软件运动的基本原则。

对于我们这些构建工具和应用的人（比如 Ichiban Tools 的工程团队）来说，现在正是审查我们的依赖项、深入了解我们集成到产品中的 AI 服务数据来源的关键时刻。“快速试错，疯狂抓取” (Move fast and scrape things) 的时代可能正在迅速终结，取而代之的，将是一个极其必要但也注定痛苦的时代：强调问责、透明的数据治理以及严格的许可证合规。我们将密切关注这一领域的动态，并随着事态的发展及时向我们的开发者社区通报。