SOMMAIRE
Elon Musk a récemment dévoilé un projet ambitieux pour xAI : atteindre une puissance de calcul équivalente à 50 millions de GPU H100 d’ici 2030. Ce chiffre impressionnant ne correspond pas à un nombre réel de GPU, mais plutôt à une capacité de calcul théorique. L’objectif est de parvenir à 50 exaflops, une unité de mesure de la performance informatique, sans pour autant nécessiter physiquement 50 millions de GPU.
Pour donner une idée de l’ampleur de ce projet, il faudrait une énergie équivalente à celle produite par 35 centrales nucléaires pour alimenter un tel réseau de GPU H100. Cependant, grâce aux avancées technologiques, il est possible d’atteindre cette puissance avec un nombre bien moindre de GPU. Les architectures récentes, comme Blackwell et Rubin, offrent des performances nettement supérieures par puce. Selon certaines projections, environ 650 000 GPU basés sur l’architecture Feynman Ultra pourraient suffire pour atteindre ce seuil.
xAI a déjà commencé à mettre en place une infrastructure impressionnante. Son cluster actuel, Colossus 1, utilise 200 000 GPU H100 et H200, complétés par 30 000 puces de la gamme Blackwell. Un second cluster, Colossus 2, est en préparation et devrait intégrer plus d’un million de GPU, combinant des nœuds GB200 et GB300.
Le choix de continuer à utiliser le H100, malgré l’existence du H200, semble être une décision stratégique. Le H100 est une référence bien établie dans le domaine de l’IA, largement utilisée et documentée. Sa constance en termes de performance en FP16 et BF16 en fait une unité de mesure fiable pour les projections futures.
L’un des défis majeurs de ce projet réside dans l’approvisionnement énergétique. Un cluster de 50 exaflops nécessiterait une puissance de 35 GW si alimenté uniquement par des GPU H100. Même avec des GPU plus performants, comme le Feynman Ultra, la consommation énergétique resterait considérable, autour de 4,685 GW. Cela représente plus de trois fois la consommation estimée pour Colossus 2.
Le coût est également un facteur crucial. Actuellement, un GPU Nvidia H100 coûte plus de 25 000 dollars. Même avec une réduction du nombre de GPU nécessaires grâce aux nouvelles technologies, l’investissement total pourrait atteindre plusieurs dizaines de milliards de dollars, sans compter les coûts liés aux infrastructures nécessaires.
En résumé, le projet de Musk pour xAI est techniquement réalisable, mais il pose des défis considérables en termes de financement et de logistique. La vision d’une telle puissance de calcul est fascinante, mais elle nécessite des ressources colossales et une planification minutieuse pour devenir réalité.