Snowflake 豪掷 60 亿美元押注 AWS 自研芯片:AI 工作负载的未来走向何方

海量数据(Data gravity)与人工智能的交汇,始终给基础设施带来一个严峻的挑战:如何在不严重挤压利润空间的前提下,在 PB 级的企业数据上运行计算密集型的 AI 工作负载?昨天,作为行业巨头之一的 Snowflake,为我们提供了一个明确的解法。在一项堪称云基础设施决定性时刻的举措中,据报道,Snowflake 与 Amazon Web Services (AWS) 签署了一项高达 60 亿美元的惊人协议,其核心目标直指 AWS 的自研 AI CPU 芯片。
这一最初由 TechCrunch 报道的消息,绝不仅仅是一次常规的企业云服务续约。这是对定制芯片(Custom Silicon)未来的一次精准且极具战略意义的押注,标志着 AI 硬件经济学正在经历一场深刻的变革。对于在大规模环境下进行构建的开发者和数据工程师来说,此举也为我们洞察行业未来的发展方向提供了关键的线索。
#到底发生了什么?
Snowflake 承诺在未来数年内向 AWS 投入 60 亿美元,而该协议的重中之重,便是获得 AWS 专有 AI CPU 架构的使用权。尽管新闻稿中并未完全披露具体的 SKU,但在 AWS 硬件路线图的背景下,这无疑指向了配备高级向量处理单元(Vector Processing Units)的新一代 Graviton 处理器,以及与 Trainium 和 Inferentia 芯片的深度整合。
一直以来,Snowflake 都标榜自己是一个纯粹的云原生、跨云平台(Cloud-agnostic),努力在 AWS、Google Cloud 和 Azure 之间保持功能的一致性。虽然他们毫无疑问仍将坚持多云战略,但这笔指定用于 AWS 定制芯片的 60 亿美元承诺表明,Snowflake 推进 AI 计划(尤其是 Snowflake Cortex)的底层计算架构,将针对 AWS 的硬件生态系统进行深度优化。
#为什么这很重要:逃离 GPU 瓶颈
在过去的三年里,整个科技界几乎都被 GPU 所吸引。NVIDIA 的主导地位决定了 AI 创新的节奏。然而,众所周知,GPU 价格昂贵、一卡难求,并且对于数据仓库原生的特定类型 AI 工作负载而言,GPU 的效率往往并不高。
处理表格数据的企业级 AI,通常涉及海量数据准备、向量嵌入(Vector Embeddings)生成,以及使用经过高度微调的小型基础模型进行推理。如果将 PB 级的数据移出数据仓库,传输到独立的 GPU 集群中进行处理,将会带来难以接受的延迟、安全风险以及高昂的数据流出(Egress)成本。
通过转向高性能、针对 AI 优化的 CPU,Snowflake 正在将重心放在**数据本地性(Data Locality)**上。AWS 的定制芯片使 Snowflake 能够将 AI 计算直接嵌入到现有的数据处理节点中。Graviton 架构凭借其基于 ARM 的高效性,以及专门的机器学习指令集(如支持 bfloat16 和可扩展向量指令 SVE),在执行这些特定任务时,相比通用的 x86 计算节点或处于空闲状态的 GPU,能提供显著更高的能效比(Performance-per-watt)。
#对工程师的开发启示
这对于在现代数据栈(Modern Data Stack)上进行构建的工程师来说意味着什么?让我们来剖析一下其技术层面的影响:
#1. 基于 CPU 推理的崛起
我们将见证 CPU 优化模型的复兴。像 llama.cpp 和 Intel 的 OpenVINO 这样的框架已经证明,CPU 能够以惊人的效率处理 150 亿参数以下模型的推理任务。随着 AWS 提供专为这些工作负载流片(Taped out)的 CPU,可以预见 Snowflake 将直接通过 SQL 提供经过极限优化的、低延迟的推理端点(Endpoints)。
-- Hypothetical future Snowflake SQL taking advantage of local CPU inference
SELECT
customer_id,
cortex.analyze_sentiment(customer_review_text, 'llama3-8b-cpu-optimized') as sentiment
FROM
raw_customer_feedback
WHERE
processed_date > CURRENT_DATE() - 7;
#2. 更低成本的向量数据库能力
为了检索增强生成(RAG)而对文本进行向量化,是一个计算密集型的过程。利用专门的 CPU 指令,可以降低维护和更新海量向量索引的成本。通过将 Embeddings 的生成卸载(Offloading)给 AWS 定制芯片,Snowflake 很可能会大幅降低向量操作的计算积分消耗,从而使在数据仓库内原生实现企业级 RAG 架构变得更加切实可行。
#3. 性价比的重新平衡
对于基础设施工程师而言,最关键的指标是“单位成本吞吐量”(Throughput per dollar)。AWS 的定制芯片通常能提供比同级 x86 实例高出多达 40% 的性价比。当这种优势应用在 Snowflake 的庞大规模上时,这笔 60 亿美元的投资很可能会转化为更具竞争力的定价层级,惠及那些运行数据密集型 AI 流水线的终端用户。
#未来展望
这项协议树立了一个强有力的先例。它给 Databricks 和 Google 的 BigQuery 等竞争对手带来了巨大的压力,迫使他们巩固自身的硬件战略。Google 天生拥有其定制的 TPU 和 Axion ARM 处理器,完全有能力在原生层面予以反击。Microsoft Azure 则可能会更加依赖其 Maia AI 加速器和 Cobalt CPU,以提供类似优化的计算路径。
此外,这也是对 Amazon 长期战略的有力印证。几年前,AWS 收购了 Annapurna Labs 以自研芯片——当时这一举动令一些人感到困惑。而在今天,正是那次收购不仅赢得了价值数十亿美元的合同,更在重新定义现代数据栈的架构。
#结语
Snowflake 与 AWS 达成的这笔 60 亿美元的交易,不仅仅是一次巨额的财务往来;它更是一项将塑造未来十年数据工程生态系统的技术架构决策。通过在自研 AI CPU 上下重注,Snowflake 正直击企业级 AI 的真正瓶颈:将数据移动到计算节点所带来的高昂成本与复杂性。
作为开发者,这预示着我们用来分析、转换和利用数据的工具,即将变得更智能、更快捷,并且比以往任何时候都更加深度地与底层芯片相融合。GPU 也许开启了这场 AI 革命,但最终要让它真正在大规模生产环境中落地,自研 CPU 才是那个真正的中坚力量。