65 ExaFLOP AI superdator under uppbyggnad av AWS och NVIDIA

När explosionen av artificiell intelligens fortsätter, fortsätter efterfrågan på mer avancerad artificiell intelligens (AI)-infrastruktur att växa. Som svar på detta behov har Amazon Web Services (AWS) och NVIDIA utökat sitt strategiska samarbete för att tillhandahålla förbättrad AI-infrastruktur och tjänster genom att bygga en kraftfull ny AI-superdator som kan leverera 65 ExaFLOPs processorkraft.

Detta partnerskap syftar till att integrera den senaste tekniken från båda företagen för att ta AI-innovation till nya höjder. En nyckelaspekt av detta samarbete är att AWS blir den första molnleverantören som erbjuder NVIDIAs Grace Hopper GH200 superchips. Dessa superchips har multi-nod NVLink-teknik, ett betydande framsteg inom AI-beräkningar. Grace Hopper GH200-superchippen erbjuder upp till 20 TB delat minne, en funktion som kan driva arbetsbelastningar i terabyteskala, en kapacitet som tidigare var ouppnåelig i molnet.

Ny AI superdator under uppbyggnad

Förutom hårdvaruframsteg sträcker sig partnerskapet till molntjänster. NVIDIA och AWS är inställda på att vara värd för NVIDIA DGX Cloud, NVIDIAs AI-träningsplattform som en tjänst, på AWS. Den här tjänsten kommer att innehålla GH200 NVL32, som ger utvecklare det största delade minnet i en enda instans. Detta samarbete kommer att tillåta utvecklare att få åtkomst till superdatorer med flera noder för att snabbt träna komplexa AI-modeller, vilket effektiviserar AI-utvecklingsprocessen.

65 ExaFLOPs av processorkraft

Partnerskapet mellan AWS och NVIDIA sträcker sig även till det ambitiösa Ceiba-projektet. Detta projekt syftar till att designa världens snabbaste GPU-drivna AI-superdator. AWS kommer att vara värd för denna superdator, som i första hand kommer att användas av NVIDIAs forsknings- och utvecklingsteam. Att integrera superdatorn Project Ceiba med AWS-tjänster kommer att ge NVIDIA en omfattande uppsättning AWS-funktioner för forskning och utveckling, vilket kan leda till betydande framsteg inom AI-teknik.

Sammanfattning av samarbetet

AWS kommer att vara den första molnleverantören som tar med NVIDIAs Grace Hopper GH200 superchips med ny multi-nod NVLink-teknik till molnet. NVIDIA GH200 NVL32 multi-nod-plattform kopplar samman 32 Grace Hopper-superchips med NVIDIA NVLink- och NVSwitch-teknologier i en instans. Plattformen kommer att vara tillgänglig på Amazon Elastic Compute Cloud (Amazon EC2)-instanser anslutna till det kraftfulla Amazon-nätverket (EFA), som stöds av avancerad virtualisering (AWS Nitro System) och storskalig klustring (Amazon EC2 UltraClusters), vilket gör det möjligt för gemensamma kunder att skala till tusentals GH200 Superchips.
NVIDIA och AWS kommer att samarbeta för att vara värd för NVIDIA DGX Cloud – NVIDIAs AI-träning som en tjänst – på AWS. Detta kommer att vara det första DGX-molnet med GH200 NVL32, som kommer att ge utvecklare det största delade minnet i en enda instans. DGX Cloud på AWS kommer att påskynda utbildningen av banbrytande generativ AI och stora språkmodeller som kan nå över 1 biljon parametrar.
NVIDIA och AWS samarbetar i Project Ceiba för att bygga världens snabbaste GPU-drivna AI-superdator, ett system i skala med GH200 NVL32 och den AWS-värdade Amazon EFA interconnect för NVIDIAs forsknings- och utvecklingsteam. Denna första superdator i sitt slag, utrustad med 16 384 NVIDIA GH200 Superchips och kan bearbeta 65 exaflops av AI, kommer att användas av NVIDIA för att driva sin nästa våg av generativ AI-innovation.
AWS kommer att introducera tre nya Amazon EC2-instanser: P5e-instanser, som drivs av NVIDIA H200 Tensor Core GPU, för storskaliga och kantgenerativa AI- och HPC-arbetsbelastningar, och G6- och G6e-instanser, som drivs av NVIDIA GPU:er, respektive L4- och NVIDIA L40S-GPU:er, för ett brett utbud av applikationer som AI-finjustering, slutledning, grafik och videoarbetsbelastningar. G6e-instanser är särskilt lämpade för att utveckla 3D-arbetsflöden, digitala tvillingar och andra applikationer med NVIDIA Omniverse, en plattform för att ansluta och bygga AI-drivna generativa 3D-applikationer.
"AWS och NVIDIA har arbetat tillsammans i över 13 år, med början med världens första moln-GPU-instans. Idag erbjuder vi det bredaste utbudet av NVIDIA GPU-lösningar för arbetsbelastningar inklusive grafik, spel, högpresterande datoranvändning, maskininlärning och nu generativ AI, säger Adam Selipsky, VD för AWS. "Vi fortsätter att förnya med NVIDIA för att göra AWS till den bästa platsen att köra GPU:er, genom att kombinera NVIDIAs nästa generation Grace Hopper Superchips med AWS kraftfulla EFA-nätverk, EC2 UltraClusters storskalig klustring och Nitros avancerade virtualiseringsmöjligheter."

Amazon NVIDIA-partner

För att stärka sina AI-erbjudanden kommer AWS att introducera tre nya Amazon EC2-instanser som drivs av NVIDIA GPU:er. Dessa är P5e-instanserna, utrustade med NVIDIA H200 Tensor Core GPU, och G6- och G6e-instanserna, utrustade med NVIDIA L4 GPU:er respektive NVIDIA L40S GPU:er. Dessa nya instanser kommer att tillåta kunder att bygga, träna och distribuera sina banbrytande modeller på AWS, vilket utökar möjligheterna för AI-utveckling.

NVIDIA DGX Cloud Hosting på AWS

Dessutom kommer AWS att vara värd för NVIDIA DGX Cloud som drivs av GH200 NVL32 NVLink-infrastruktur. Denna tjänst kommer att ge företag snabb tillgång till multi-nods superdatorfunktioner, vilket gör det möjligt för dem att effektivt träna komplexa AI-modeller.

För att driva utvecklingen av generativ AI tillkännagav NVIDIA programvara på AWS, inklusive mikrotjänsten NVIDIA NeMo Retriever och NVIDIA BioNeMo. Dessa verktyg kommer att ge utvecklare de resurser de behöver för att utforska de nya gränserna för AI-utveckling.

Det utökade samarbetet mellan AWS och NVIDIA representerar ett betydande framsteg inom AI-innovation. Genom att integrera sina respektive teknologier är dessa företag redo att tillhandahålla avancerad infrastruktur, mjukvara och tjänster för generativa AI-innovationer. Detta partnerskap kommer inte bara att förbättra förmågan hos AI-utvecklare utan också bana väg för ytterligare framsteg inom området AI-teknik. När samarbetet utvecklas kan möjligheterna för AI-utveckling nå oöverträffade nivåer.

65 ExaFLOP AI superdator under uppbyggnad av AWS och NVIDIA