Snowflake 豪掷 60 亿美元押注 AWS 自研芯片：AI 工作负载的未来走向何方

Hero

海量数据（Data gravity）与人工智能的交汇，始终给基础设施带来一个严峻的挑战：如何在不严重挤压利润空间的前提下，在 PB 级的企业数据上运行计算密集型的 AI 工作负载？昨天，作为行业巨头之一的 Snowflake，为我们提供了一个明确的解法。在一项堪称云基础设施决定性时刻的举措中，据报道，Snowflake 与 Amazon Web Services (AWS) 签署了一项高达 60 亿美元的惊人协议，其核心目标直指 AWS 的自研 AI CPU 芯片。

这一最初由 TechCrunch 报道的消息，绝不仅仅是一次常规的企业云服务续约。这是对定制芯片（Custom Silicon）未来的一次精准且极具战略意义的押注，标志着 AI 硬件经济学正在经历一场深刻的变革。对于在大规模环境下进行构建的开发者和数据工程师来说，此举也为我们洞察行业未来的发展方向提供了关键的线索。

#到底发生了什么？

Snowflake 承诺在未来数年内向 AWS 投入 60 亿美元，而该协议的重中之重，便是获得 AWS 专有 AI CPU 架构的使用权。尽管新闻稿中并未完全披露具体的 SKU，但在 AWS 硬件路线图的背景下，这无疑指向了配备高级向量处理单元（Vector Processing Units）的新一代 Graviton 处理器，以及与 Trainium 和 Inferentia 芯片的深度整合。

一直以来，Snowflake 都标榜自己是一个纯粹的云原生、跨云平台（Cloud-agnostic），努力在 AWS、Google Cloud 和 Azure 之间保持功能的一致性。虽然他们毫无疑问仍将坚持多云战略，但这笔指定用于 AWS 定制芯片的 60 亿美元承诺表明，Snowflake 推进 AI 计划（尤其是 Snowflake Cortex）的底层计算架构，将针对 AWS 的硬件生态系统进行深度优化。

#为什么这很重要：逃离 GPU 瓶颈

在过去的三年里，整个科技界几乎都被 GPU 所吸引。NVIDIA 的主导地位决定了 AI 创新的节奏。然而，众所周知，GPU 价格昂贵、一卡难求，并且对于数据仓库原生的特定类型 AI 工作负载而言，GPU 的效率往往并不高。

处理表格数据的企业级 AI，通常涉及海量数据准备、向量嵌入（Vector Embeddings）生成，以及使用经过高度微调的小型基础模型进行推理。如果将 PB 级的数据移出数据仓库，传输到独立的 GPU 集群中进行处理，将会带来难以接受的延迟、安全风险以及高昂的数据流出（Egress）成本。

通过转向高性能、针对 AI 优化的 CPU，Snowflake 正在将重心放在**数据本地性（Data Locality）**上。AWS 的定制芯片使 Snowflake 能够将 AI 计算直接嵌入到现有的数据处理节点中。Graviton 架构凭借其基于 ARM 的高效性，以及专门的机器学习指令集（如支持 bfloat16 和可扩展向量指令 SVE），在执行这些特定任务时，相比通用的 x86 计算节点或处于空闲状态的 GPU，能提供显著更高的能效比（Performance-per-watt）。

#对工程师的开发启示

这对于在现代数据栈（Modern Data Stack）上进行构建的工程师来说意味着什么？让我们来剖析一下其技术层面的影响：

#1. 基于 CPU 推理的崛起

我们将见证 CPU 优化模型的复兴。像 llama.cpp 和 Intel 的 OpenVINO 这样的框架已经证明，CPU 能够以惊人的效率处理 150 亿参数以下模型的推理任务。随着 AWS 提供专为这些工作负载流片（Taped out）的 CPU，可以预见 Snowflake 将直接通过 SQL 提供经过极限优化的、低延迟的推理端点（Endpoints）。

-- Hypothetical future Snowflake SQL taking advantage of local CPU inference
SELECT 
    customer_id,
    cortex.analyze_sentiment(customer_review_text, 'llama3-8b-cpu-optimized') as sentiment
FROM 
    raw_customer_feedback
WHERE 
    processed_date > CURRENT_DATE() - 7;

#2. 更低成本的向量数据库能力

为了检索增强生成（RAG）而对文本进行向量化，是一个计算密集型的过程。利用专门的 CPU 指令，可以降低维护和更新海量向量索引的成本。通过将 Embeddings 的生成卸载（Offloading）给 AWS 定制芯片，Snowflake 很可能会大幅降低向量操作的计算积分消耗，从而使在数据仓库内原生实现企业级 RAG 架构变得更加切实可行。

#3. 性价比的重新平衡

对于基础设施工程师而言，最关键的指标是“单位成本吞吐量”（Throughput per dollar）。AWS 的定制芯片通常能提供比同级 x86 实例高出多达 40% 的性价比。当这种优势应用在 Snowflake 的庞大规模上时，这笔 60 亿美元的投资很可能会转化为更具竞争力的定价层级，惠及那些运行数据密集型 AI 流水线的终端用户。

#未来展望

这项协议树立了一个强有力的先例。它给 Databricks 和 Google 的 BigQuery 等竞争对手带来了巨大的压力，迫使他们巩固自身的硬件战略。Google 天生拥有其定制的 TPU 和 Axion ARM 处理器，完全有能力在原生层面予以反击。Microsoft Azure 则可能会更加依赖其 Maia AI 加速器和 Cobalt CPU，以提供类似优化的计算路径。

此外，这也是对 Amazon 长期战略的有力印证。几年前，AWS 收购了 Annapurna Labs 以自研芯片——当时这一举动令一些人感到困惑。而在今天，正是那次收购不仅赢得了价值数十亿美元的合同，更在重新定义现代数据栈的架构。

#结语

Snowflake 与 AWS 达成的这笔 60 亿美元的交易，不仅仅是一次巨额的财务往来；它更是一项将塑造未来十年数据工程生态系统的技术架构决策。通过在自研 AI CPU 上下重注，Snowflake 正直击企业级 AI 的真正瓶颈：将数据移动到计算节点所带来的高昂成本与复杂性。

作为开发者，这预示着我们用来分析、转换和利用数据的工具，即将变得更智能、更快捷，并且比以往任何时候都更加深度地与底层芯片相融合。GPU 也许开启了这场 AI 革命，但最终要让它真正在大规模生产环境中落地，自研 CPU 才是那个真正的中坚力量。