Supercalculateur d'IA de 65 ExaFLOP en cours de construction par AWS et NVIDIA

Alors que l’explosion de l’intelligence artificielle se poursuit, la demande d’une infrastructure d’intelligence artificielle (IA) plus avancée ne cesse de croître. En réponse à ce besoin, Amazon Web Services (AWS) et NVIDIA ont étendu leur collaboration stratégique pour fournir une infrastructure et des services d’IA améliorés en construisant un nouveau supercalculateur d’IA puissant capable de fournir 65 ExaFLOPs de puissance de traitement.

Ce partenariat vise à intégrer les dernières technologies des deux sociétés afin d’amener l’innovation en matière d’IA à de nouveaux sommets. L’un des aspects clés de cette collaboration est qu’AWS devient le premier fournisseur de cloud à proposer les superpuces Grace Hopper GH200 de NVIDIA. Ces superchips sont équipés de la technologie NVLink multi-nœuds, une avancée significative dans l’informatique de l’IA. Les superpuces Grace Hopper GH200 offrent jusqu’à 20 To de mémoire partagée, une caractéristique qui peut alimenter des charges de travail à l’échelle du téraoctet, une capacité qui était jusqu’à présent inaccessible dans le cloud.

Nouveau supercalculateur d’IA en construction

Outre les avancées matérielles, le partenariat s’étend aux services cloud. NVIDIA et AWS sont prêts à héberger NVIDIA DGX Cloud, la plate-forme de formation à l’IA en tant que service de NVIDIA, sur AWS. Ce service sera doté du GH200 NVL32, fournissant aux développeurs la plus grande mémoire partagée dans une seule instance. Cette collaboration permettra aux développeurs d’accéder à des supercalculateurs multi-nœuds pour former rapidement des modèles d’IA complexes, rationalisant ainsi le processus de développement de l’IA.

65 ExaFLOP de puissance de traitement

Le partenariat entre AWS et NVIDIA s’étend également à l’ambitieux projet Ceiba. Ce projet vise à concevoir le supercalculateur d’IA alimenté par GPU le plus rapide au monde. AWS hébergera ce supercalculateur, qui servira principalement à l’équipe de recherche et développement de NVIDIA. L’intégration du supercalculateur Project Ceiba aux services AWS fournira à NVIDIA un ensemble complet de capacités AWS pour la recherche et le développement, ce qui pourrait conduire à des avancées significatives dans la technologie de l’IA.

Résumé de la collaboration

AWS sera le premier fournisseur de cloud à apporter au cloud les superchips Grace Hopper GH200 de NVIDIA avec la nouvelle technologie NVLink multi-nœuds. La plate-forme multi-nœuds NVIDIA GH200 NVL32 connecte 32 superchips Grace Hopper avec les technologies NVIDIA NVLink et NVSwitch dans une instance. La plate-forme sera disponible sur les instances Amazon Elastic Compute Cloud (Amazon EC2) connectées au puissant réseau d’Amazon (EFA), soutenues par une virtualisation avancée (AWS Nitro System) et un clustering à grande échelle (Amazon EC2 UltraClusters), permettant aux clients communs d’évoluer vers des milliers de Superchips GH200.
NVIDIA et AWS vont collaborer pour héberger NVIDIA DGX Cloud – la formation à l’IA en tant que service de NVIDIA – sur AWS. Il s’agira du premier DGX Cloud doté du GH200 NVL32, qui fournira aux développeurs la plus grande mémoire partagée dans une seule instance. DGX Cloud sur AWS accélérera la formation de l’IA générative de pointe et des grands modèles de langage qui peuvent atteindre plus de 1 000 milliards de paramètres.
NVIDIA et AWS s’associent dans le cadre du projet Ceiba pour concevoir le supercalculateur d’IA alimenté par GPU le plus rapide du monde, un système à l’échelle avec le GH200 NVL32 et l’interconnexion Amazon EFA hébergée par AWS pour l’équipe de recherche et de développement de NVIDIA. Ce supercalculateur, le premier du genre, équipé de 16 384 Superchips NVIDIA GH200 et capable de traiter 65 exaflops d’IA, sera utilisé par NVIDIA pour propulser sa prochaine vague d’innovation en matière d’IA générative.
AWS présentera trois nouvelles instances Amazon EC2 : Les instances P5e, équipées de GPU NVIDIA H200 Tensor Core, pour l’IA générative à grande échelle et de pointe et les charges de travail HPC, et les instances G6 et G6e, équipées respectivement de GPU NVIDIA L4 et de GPU NVIDIA L40S, pour un large éventail d’applications telles que l’ajustement fin de l’IA, l’inférence, les charges de travail graphiques et vidéo. Les instances G6e sont particulièrement adaptées au développement de workflows 3D, de jumeaux numériques et d’autres applications utilisant NVIDIA Omniverse, une plate-forme pour connecter et construire des applications 3D génératives basées sur l’IA.
« AWS et NVIDIA collaborent depuis plus de 13 ans, en commençant par la première instance GPU cloud au monde. Aujourd’hui, nous proposons la plus large gamme de solutions GPU NVIDIA pour les charges de travail telles que le graphisme, le jeu, le calcul de haute performance, l’apprentissage automatique et maintenant l’IA générative « , a déclaré Adam Selipsky, CEO d’AWS. « Nous continuons à innover avec NVIDIA pour faire d’AWS le meilleur endroit pour faire tourner les GPU, en associant la nouvelle génération de Superchips Grace Hopper de NVIDIA à la puissante mise en réseau EFA d’AWS, au clustering à grande échelle EC2 UltraClusters et aux capacités de virtualisation avancées de Nitro « .

Partenaire Amazon NVIDIA

Pour renforcer ses offres en matière d’IA, AWS s’apprête à introduire trois nouvelles instances Amazon EC2 dotées de GPU NVIDIA. Il s’agit des instances P5e, équipées de GPU NVIDIA H200 Tensor Core, et des instances G6 et G6e, équipées respectivement de GPU NVIDIA L4 et de GPU NVIDIA L40S. Ces nouvelles instances permettront aux clients de construire, d’entraîner et de déployer leurs modèles de pointe sur AWS, élargissant ainsi les possibilités de développement de l’IA.

Hébergement du cloud NVIDIA DGX sur AWS

En outre, AWS hébergera le NVIDIA DGX Cloud alimenté par l’infrastructure GH200 NVL32 NVLink. Ce service fournira aux entreprises un accès rapide à des capacités de supercalcul multi-nœuds, leur permettant d’entraîner efficacement des modèles d’IA complexes.

Pour stimuler le développement de l’IA générative, NVIDIA a annoncé des logiciels sur AWS, notamment le microservice NVIDIA NeMo Retriever et NVIDIA BioNeMo. Ces outils fourniront aux développeurs les ressources dont ils ont besoin pour explorer les nouvelles frontières du développement de l’IA.

La collaboration élargie entre AWS et NVIDIA représente une avancée significative dans l’innovation de l’IA. En intégrant leurs technologies respectives, ces sociétés sont prêtes à fournir une infrastructure, des logiciels et des services avancés pour les innovations en matière d’IA générative. Ce partenariat permettra non seulement d’améliorer les capacités des développeurs d’IA, mais aussi d’ouvrir la voie à de nouvelles avancées dans le domaine de la technologie de l’IA. Au fur et à mesure que la collaboration évolue, les possibilités de développement de l’IA pourraient atteindre des niveaux sans précédent.

Supercalculateur d’IA de 65 ExaFLOP en cours de construction par AWS et NVIDIA