Anthropic étend son partenariat avec Google et Broadcom pour le calcul de nouvelle génération

Hero

#Introduction

La course à l'intelligence artificielle générale (AGI) représente un défi tout autant matériel et infrastructurel qu'algorithmique. L'entraînement de modèles de pointe requiert une puissance de calcul presque inconcevable, et les goulots d'étranglement se sont progressivement déplacés des simples opérations en virgule flottante par seconde (FLOPS) vers la bande passante mémoire et les interconnexions réseau.

Aujourd'hui, Anthropic a annoncé une extension majeure de son partenariat stratégique avec Google Cloud et Broadcom. Cette collaboration tripartite vise à co-concevoir et déployer des clusters de calcul de nouvelle génération, spécifiquement optimisés pour l'architecture d'apprentissage automatique unique d'Anthropic. Pour les développeurs et les ingénieurs d'infrastructure qui suivent le secteur de l'IA, ce partenariat marque une évolution cruciale : la transition d'accélérateurs génériques prêts à l'emploi vers des piles matérielles sur mesure et profondément intégrées.

#Que s'est-il passé ?

Anthropic, l'entreprise de recherche à l'origine de la famille de grands modèles de langage (LLM) Claude, s'est engagée dans une extension pluriannuelle et de plusieurs milliards de dollars de son infrastructure cloud avec Google Cloud. Fait essentiel, Broadcom a été intégré plus en profondeur en tant que partenaire fondateur.

L'accord garantit à Anthropic un accès prioritaire aux prochaines générations de Tensor Processing Units (TPU) et d'accélérateurs d'IA personnalisés de Google. De son côté, Broadcom fournira les circuits intégrés spécifiques (ASIC) de mise en réseau à haut débit, la photonique sur silicium et les technologies d'interconnexion avancées indispensables pour relier des centaines de milliers de ces puces en d'immenses pods d'entraînement synchrones.

Bien que les termes financiers exacts n'aient pas été divulgués, l'ampleur même du déploiement matériel devrait éclipser les précédents clusters d'entraînement d'Anthropic, les positionnant ainsi pour construire des modèles nettement plus vastes et performants que Claude 3.5.

#Pourquoi est-ce important ?

Ces dernières années, l'industrie de l'IA a été massivement dominée par un seul fournisseur de matériel. Si les GPU et le réseau InfiniBand de NVIDIA sont devenus la norme absolue, la demande colossale a engendré des contraintes sur la chaîne d'approvisionnement, des coûts exorbitants et une approche homogénéisée de l'infrastructure d'IA.

Cette extension de partenariat est primordiale pour trois raisons clés :

Diversification matérielle : En investissant massivement dans l'architecture TPU de Google, Anthropic démontre que les modèles de pointe ne nécessitent pas strictement des GPU traditionnels. Cette diversification est saine pour l'écosystème global et exerce une pression à la baisse sur les coûts de calcul.
Co-conception et intégration verticale : Plutôt que d'adapter son logiciel pour qu'il corresponde au matériel, Anthropic a désormais une envergure suffisante pour influencer la feuille de route matérielle. Broadcom et Google adapteront la topologie réseau et la hiérarchie mémoire pour répondre spécifiquement au mélange d'experts (MoE) et aux mécanismes d'attention utilisés par les futurs modèles Claude.
Franchir le "mur du réseau" : Dans l'entraînement distribué, les accélérateurs passent un temps considérable à attendre l'arrivée des données en provenance d'autres nœuds. L'implication de Broadcom souligne que le prochain bond en avant des capacités de l'IA sera conditionné par la bande passante réseau, et non plus seulement par la puissance de calcul brute.

#Implications techniques

Pour saisir la portée de cette annonce, il faut se pencher sur l'anatomie d'un cluster d'entraînement d'IA moderne. L'entraînement d'un modèle à mille milliards de paramètres exige de paralléliser la charge de travail sur des dizaines de milliers de puces en combinant le parallélisme de données (DP), le parallélisme de tenseurs (TP) et le parallélisme de pipeline (PP).

#Le goulot d'étranglement de l'interconnexion

Lors de la répartition d'une multiplication matricielle massive sur plusieurs puces (parallélisme de tenseurs), les puces doivent échanger des résultats intermédiaires de manière presque instantanée. Si le réseau est lent, les accélérateurs restent inactifs, gaspillant ainsi d'énormes quantités d'énergie et de temps.

L'expertise de Broadcom dans les commutateurs à haute densité (comme la famille Tomahawk) et la technologie SerDes (sérialiseur/désérialiseur) à haute efficacité est ici critique. En s'orientant vers la photonique sur silicium — où les données sont transmises entre les baies par la lumière plutôt que par des câbles en cuivre électriques — Broadcom et Google peuvent réduire drastiquement la latence et augmenter le ratio bande passante/puissance.

#TPU contre clusters traditionnels

Les TPU de Google reposent sur une architecture fondamentalement différente de celle des GPU standards. Ils utilisent une unité de multiplication matricielle (MXU) conçue spécifiquement pour les opérations matricielles denses, associée à une architecture d'interconnexion synchrone personnalisée (souvent une topologie en tore 3D).

Caractéristique	Cluster GPU traditionnel (ex: H100)	Pod TPU nouvelle génération / Broadcom
Architecture de base	Multiprocesseurs de flux hautement parallèles	Vastes réseaux systoliques (MXU)
Mise en réseau	InfiniBand / RoCE via des cartes réseau discrètes	Interconnexion inter-cœurs intégrée (ICI) & ASIC Broadcom personnalisés
Topologie	Fat Tree non bloquant / Spine-Leaf	Tore multidimensionnel / maillages optiques personnalisés
Objectif	Calcul accéléré à usage général	Profondément spécialisé pour les opérations tensorielles synchrones

En exploitant les ASIC de réseau sur mesure de Broadcom directement à la périphérie des pods TPU de Google, Anthropic peut traiter un cluster massif comme un seul et unique accélérateur géant. Cela réduit la "taxe de communication" qui pénalise généralement les entraînements massifs de modèles MoE, permettant d'utiliser des tailles de lots plus importantes et une synchronisation des gradients plus efficace.

#Et ensuite ?

À court terme, cette infrastructure servira principalement aux équipes de recherche internes d'Anthropic. À mesure que ces nouveaux clusters massifs seront mis en service vers la fin de 2026, nous pouvons nous attendre à ce que l'entraînement des modèles de génération Claude 4, et potentiellement Claude 5, s'accélère rapidement.

Pour les développeurs utilisant l'API d'Anthropic, cette évolution matérielle se manifestera probablement de deux manières :

Inférence à faible latence : Les architectures co-conçues pour un entraînement efficace donnent souvent lieu à un matériel d'inférence spécialisé. Attendez-vous à un délai d'obtention du premier jeton (TTFT) plus rapide et à un débit plus élevé pour les applications en streaming.
Fenêtres de contexte massives : Les améliorations de la bande passante mémoire facilitées par l'empaquetage avancé et les interconnexions optiques de Broadcom rendront le traitement de contextes massifs beaucoup moins coûteux, repoussant potentiellement les fenêtres de contexte standard bien au-delà de la barre des 1 à 2 millions de jetons.

#Conclusion

Le partenariat entre Anthropic, Google Cloud et Broadcom est une véritable leçon d'ingénierie d'infrastructure stratégique. Alors que les modèles franchissent le cap des mille milliards de paramètres, l'approche standard d'assemblage matériel n'est plus suffisante.

En intégrant profondément le calcul, la mise en réseau sur silicium personnalisée et l'architecture des modèles, Anthropic ne se contente pas d'acheter de l'espace serveur : ils construisent un supercalculateur spécialisé. Pour les développeurs d'Ichiban Tools et du monde entier, cela annonce un avenir où les capacités de l'IA ne seront limitées que par les lois de la physique et du réseau, ouvrant la voie à des utilitaires d'IA plus rapides, plus intelligents et plus rentables.