Anthropic, 차세대 컴퓨팅을 위해 Google 및 Broadcom과 파트너십 확대

Hero

#서론

인공일반지능(AGI)을 향한 경쟁은 알고리즘만큼이나 하드웨어와 인프라의 도전 과제이기도 합니다. 최첨단 모델을 학습시키려면 상상하기 어려울 정도로 방대한 연산 능력이 필요합니다. 또한 최근에는 병목 현상의 원인이 단순한 초당 부동소수점 연산(FLOPS)에서 메모리 대역폭과 네트워크 상호 연결(interconnects)로 점차 이동하고 있습니다.

오늘 Anthropic은 Google Cloud 및 Broadcom과의 전략적 파트너십을 대폭 확대한다고 발표했습니다. 이 3자 협력의 핵심은 Anthropic 고유의 머신러닝 아키텍처에 특별히 최적화된 차세대 컴퓨팅 클러스터를 공동으로 설계하고 구축하는 것입니다. AI 업계를 주시하는 개발자와 인프라 엔지니어에게 이번 파트너십은 중요한 변화를 의미합니다. 바로 기성품 형태의 범용 가속기에서 벗어나, 고도로 통합된 맞춤형 하드웨어 스택으로 나아가고 있다는 점입니다.

#무슨 일이 일어났나요?

거대 언어 모델(LLM)인 Claude 제품군을 개발한 연구 기업 Anthropic은 Google Cloud와의 클라우드 인프라 규모를 다년간 수십억 달러 규모로 확대하기로 약속했습니다. 여기서 주목할 점은 Broadcom이 핵심 기반 파트너로서 이번 협력에 더욱 깊이 관여하게 되었다는 것입니다.

이번 계약을 통해 Anthropic은 Google의 차세대 TPU(Tensor Processing Unit) 및 맞춤형 AI 가속기에 대한 우선 접근권을 보장받습니다. 한편 Broadcom은 수십만 개의 칩을 거대한 동기식 학습 포드(pod)로 연결하는 데 필수적인 고속 네트워킹 ASIC, 실리콘 포토닉스(silicon photonics), 그리고 첨단 인터커넥트 기술을 제공할 예정입니다.

정확한 재무 조건은 공개되지 않았습니다. 하지만 도입되는 하드웨어의 엄청난 규모는 Anthropic의 기존 학습 클러스터를 압도할 것으로 예상됩니다. 이를 바탕으로 Claude 3.5를 훌쩍 뛰어넘는, 훨씬 더 크고 강력한 모델을 구축할 수 있는 기반이 마련되었습니다.

#왜 중요한가요?

지난 몇 년 동안 AI 업계는 단일 하드웨어 공급업체가 압도적으로 지배해 왔습니다. NVIDIA의 GPU와 InfiniBand 네트워킹이 업계 표준으로 자리 잡았지만, 폭발적인 수요로 인해 공급망 병목 현상과 천문학적인 비용이 발생했습니다. 또한 AI 인프라에 대한 접근 방식이 획일화되는 결과도 낳았습니다.

이번 파트너십 확대가 중요한 이유는 크게 세 가지입니다.

하드웨어 다변화: Anthropic은 Google의 TPU 아키텍처에 대규모로 투자함으로써, 최첨단 모델에 반드시 전통적인 GPU만 필요한 것은 아님을 증명하고 있습니다. 이러한 다변화는 전체 생태계에 긍정적인 영향을 미치며, 컴퓨팅 비용을 낮추는 효과를 가져올 것입니다.
공동 설계 및 수직적 통합: 이제 Anthropic은 하드웨어에 소프트웨어를 맞추는 대신, 하드웨어 로드맵 자체에 영향을 미칠 만큼 성장했습니다. Broadcom과 Google은 향후 Claude 모델에 사용될 MoE(Mixture-of-Experts) 및 어텐션(attention) 메커니즘에 특별히 최적화된 네트워킹 토폴로지와 메모리 계층 구조를 맞춤 제작할 것입니다.
'네트워크 장벽' 극복: 분산 학습 환경에서 가속기는 다른 노드로부터 데이터를 기다리는 데 상당한 시간을 소비합니다. Broadcom의 참여는 AI 성능의 다음 도약이 단순한 컴퓨팅 파워를 넘어 네트워크 대역폭에 달려 있음을 시사합니다.

#기술적 시사점

이번 발표가 갖는 무게감을 이해하려면 현대 AI 학습 클러스터의 구조를 살펴봐야 합니다. 1조 개 이상의 파라미터를 가진 모델을 학습시키려면 데이터 병렬화(DP), 텐서 병렬화(TP), 파이프라인 병렬화(PP)를 조합하여 수만 개의 칩에 작업 부하를 분산시켜야 합니다.

#인터커넥트 병목 현상

거대한 행렬 곱셈을 여러 칩으로 분할할 때(텐서 병렬화), 각 칩은 중간 연산 결과를 거의 즉각적으로 교환해야 합니다. 네트워크가 느리면 가속기는 유휴 상태로 대기하게 되고, 이는 엄청난 에너지와 시간의 낭비로 이어집니다.

바로 이 지점에서 Tomahawk 제품군과 같은 고집적(high-radix) 스위치와 고효율 SerDes(Serializer/Deserializer) 기술에 대한 Broadcom의 전문성이 빛을 발합니다. 구리 케이블 대신 빛을 사용하여 랙 간에 데이터를 전송하는 실리콘 포토닉스 기술을 도입함으로써, Broadcom과 Google은 지연 시간을 대폭 줄이고 전력 대비 대역폭 비율을 획기적으로 높일 수 있습니다.

#TPU와 전통적인 클러스터 비교

Google의 TPU는 일반적인 GPU와는 근본적으로 다른 아키텍처를 기반으로 합니다. 밀집 행렬(dense matrix) 연산에 특화된 MXU(Matrix Multiply Unit)를 사용하며, 맞춤형 동기식 인터커넥트 아키텍처(주로 3D 토러스 토폴로지)와 결합되어 있습니다.

특징 (Feature)	전통적인 GPU 클러스터 (예: H100)	차세대 TPU / Broadcom 포드
핵심 아키텍처	고도 병렬 스트리밍 멀티프로세서	대규모 시스톨릭 어레이 (MXU)
네트워킹	개별 NIC를 통한 InfiniBand / RoCE	통합형 코어 간 인터커넥트(ICI) 및 맞춤형 Broadcom ASIC
토폴로지	논블로킹 팻 트리 (Fat Tree) / 스파인-리프 (Spine-Leaf)	다차원 토러스 (Torus) / 맞춤형 광학 메시 (optical meshes)
주요 목적	범용 가속 컴퓨팅	동기식 텐서 연산에 고도로 특화

Anthropic은 Google의 TPU 포드 엣지에 Broadcom의 맞춤형 네트워킹 ASIC을 직접 활용함으로써, 거대한 클러스터를 본질적으로 하나의 거대한 가속기처럼 다룰 수 있습니다. 이는 대규모 MoE 모델 학습에서 흔히 발생하는 '통신 비용(communication tax)'을 줄여주며, 결과적으로 더 큰 배치 크기(batch size)와 효율적인 그래디언트 동기화(gradient synchronization)를 가능하게 합니다.

#앞으로의 전망

단기적으로 이 인프라는 주로 Anthropic 내부 연구 팀을 위해 사용될 것입니다. 2026년 하반기에 걸쳐 이 거대한 새 클러스터들이 가동되기 시작하면, Claude 4와 잠재적으로 Claude 5 세대 모델의 학습 속도가 비약적으로 빨라질 것으로 기대할 수 있습니다.

Anthropic API를 사용하는 개발자들에게 이러한 하드웨어의 변화는 크게 두 가지 측면에서 나타날 것입니다.

더 낮은 지연 시간의 추론(Inference): 효율적인 학습을 위해 공동 설계된 아키텍처는 종종 특화된 추론 하드웨어로 이어집니다. 따라서 첫 번째 토큰 생성 시간(TTFT, Time-to-First-Token)이 단축되고 스트리밍 애플리케이션의 처리량이 더 높아질 것으로 예상됩니다.
초대형 컨텍스트 윈도우(Context Windows): Broadcom의 고급 패키징 및 광학 인터커넥트 기술로 향상된 메모리 대역폭 덕분에 대용량 컨텍스트 처리 비용이 크게 절감될 것입니다. 이로 인해 기본 컨텍스트 윈도우가 100만~200만 토큰을 훌쩍 넘어서는 수준까지 확장될 가능성이 높습니다.

#결론

Anthropic, Google Cloud, 그리고 Broadcom의 파트너십은 전략적 인프라 엔지니어링의 정수를 보여줍니다. 모델의 크기가 1조 파라미터를 넘어서면서, 기존의 기성품 하드웨어를 조립하는 방식은 더 이상 충분하지 않게 되었습니다.

컴퓨팅, 맞춤형 실리콘 네트워킹, 그리고 모델 아키텍처를 깊이 있게 통합함으로써 Anthropic은 단순히 서버 공간을 임대하는 것을 넘어 특화된 슈퍼컴퓨터를 직접 구축하고 있습니다. Ichiban Tools의 개발자를 비롯한 전 세계의 개발자들에게 이번 소식은 물리적 한계와 네트워킹의 한계만이 AI의 역량을 결정짓는 미래를 예고합니다. 이는 더 빠르고, 더 스마트하며, 비용 효율적인 AI 유틸리티의 시대를 여는 훌륭한 초석이 될 것입니다.