AMDs Instinct GPU-serie blir populær i data- og AI-fellesskapet. Her er hvorfor.
Det er ingen tvil om at NVIDIA fortsetter å dominere det parallelle dataområdet med sine forskjellige populære GPU-serier. Men med AMDs Instinct AI-akseleratorer som utstyrer to av de nyeste og største superdatamaskinene (Frontier og El Capitan) og fellesskapets økende støtte for deres åpen kildekode ROCm-plattform, kan NVIDIA ha funnet sin største rival til nå.
Så hva er egentlig AMDs Instinct AI-akseleratorer? Hva gjør dem kraftige, og hvordan sammenligner de seg med NVIDIAs Tensor GPUer?
Hva er en AMD Instinct-prosessor?
AMDs Instinct-prosessorer er maskinvare av bedriftskvalitet som brukes til høyytelses databehandling (HPC) og AI-akselerert prosessering. I motsetning til vanlige GPU-er av forbrukerkvalitet, er Instinct GPU-ene spesialiserte for å bedre håndtere AI-læring og andre høyytelsesoppgaver gjennom programvare- og maskinvareinnovasjoner.
AMDs Instinct-serie med GPUer ble brukt til å drive den første superdatamaskinen som bryter Exascale-barrieren, og presterte med 1,1 EFLOP-er med dobbelpresisjonsoperasjoner per sekund. Superdatamaskiner som bruker Instinct GPUer blir for tiden brukt til å forske på kreftbehandlinger, bærekraftig energi og klimaendringer.
Hvordan instinktprosessorer akselererer AI og HPC
Til verdens kraftigste mainstream-servere og superdatamaskiner for å oppnå prosessering på Exascale-nivå, måtte AMDs Instinct-akseleratorer utstyres med flere teknologiske oppgraderinger og innovasjoner.
La oss diskutere noe av den nye og oppdaterte teknologien som brukes på AMD Instinct GPUer.
1. Beregn DNA (CDNA)
Nylige AMD Instinct-akseleratorer (starter fra MI100) har brukt selskapets CDNA-arkitektur.
CDNA fokuserer først og fremst på funksjoner som parallell prosessering, minnehierarki og optimert dataytelse gjennom Matrix Core-teknologien. Til og med HPC og AI eller maskinlæring som kjører på enkeltservere kan støttes av CDNA, så vel som enorme Exascale-datamaskiner.
AMDs Matrix Core-teknologi akselererer AI-læring ved å støtte operasjoner med blandet presisjon. Evnen til å beregne med forskjellig presisjon gjør at Instinct GPUer effektivt kan beregne matriseoperasjoner basert på nødvendig presisjonsnivå.
De mest populære datapresisjonsformatene inkluderer FP64, FP32, FP16, BF16 og INT8. FP står for Floating Point, BF for Brain Floating Point, og INT for Integer. Jo høyere tall som tilsvarer formatet, desto mer nøyaktig er beregningen. Å operere på 64-bit er kjent som dobbel presisjon. Med 32-bit er det enkeltpresisjon, 16-bit er halvpresisjon, og så videre.
Siden en stor del av treningsmodeller for dyp læring ikke krever mye presisjon, har muligheten til å beregne matrise operasjoner med halv presisjon eller til og med kvart presisjon for inferencing reduserer arbeidsbelastningen betydelig, og akselererer dermed AI læring.
2. High Bandwidth Memory (HBM)
Hver AMD Instinct AI-akselerator kommer med opptil 880 Matrix Cores. Med AMDs Matrix Core-prosessorer som kan utføre 383 TFLOP-er med halvpresisjonsberegninger, er det nødvendig å ha ultrarask minne. AMDs siste Instinct-tilbud er utstyrt med High Bandwidth Memory (HBM) i stedet for vanlig DDR4 eller DDR5 RAM.
I motsetning til konvensjonelt minne, bruker HBM det som er kjent som en 3D stablet arkitektur. Denne typen arkitektur refererer til en designtilnærming der DRAM-matriser er vertikalt stablet oppå hverandre. Dette gjør at matriser kan stables på både den vertikale og horisontale aksen, derav begrepet 3D-stabling.
Med denne 3D-stablingsteknologien kan HBM-er ha fysiske minnekapasiteter så store som noen få hundre gigabyte per modul, mens DRR5 bare kan gjøre opptil titalls gigabyte per modul. Bortsett fra kapasitet, er HBM-er også kjent for å ha høyere ytelse når det gjelder overføringshastighet og bedre strømeffektivitet enn vanlig DDR-minne.
3. Infinity stoff
En annen innovasjon inkludert i Instinct GPUer er AMDs Infinity Fabric-teknologi. Infinity Fabric er en type sammenkoblingssystem som kobler sammen CPUer og GPUer på en smart dynamisk måte. Dette gjør at komponenter effektivt kan kommunisere med hverandre.
Med Infinity Fabric, i stedet for å koble sammen komponenter med en vanlig buss, kobles nå komponenter i et mesh-lignende nettverk hvor båndbredder kan være opptil flere hundre gigabyte per sekund.
Bortsett fra den mesh-lignende sammenkoblingen, bruker Infinity Fabric også sensorer innebygd i hver dyse for dynamisk kontrollere frekvens, dataoverføringshastigheter og annen adaptiv atferd, optimalisere ytelsen og minimere ventetid.
4. ROCm utviklingsplattform
NVIDIAs CUDA (compute unified device architecture) er den mest brukte utviklingsplattformen for opplæring av AI-modeller. Problemet med CUDA er at det bare fungerer med NVIDIA GPUer. Dette er en av hovedårsakene til at NVIDIA har det overveldende flertallet av markedsandeler for HPC og AI GPU-akseleratorer.
Da AMD ønsket å få en større del av HPC- og AI-markedet, måtte de utvikle sin egen plattform, ROCm (Radeon Open Compute). ROCm er en åpen kildekode-programvareplattform som lar Instinct GPUer brukes som AI-akseleratorer.
Selv om det ikke nødvendigvis er en del av Instinct-maskinvaren, er ROCm grunnleggende når det gjelder overlevelsen av Instinct-linjen med GPUer. Med ROCm, utviklere og forskere får ROCm-verktøyene, kompilatoren, kjernedriverne, en hel rekke biblioteker og tilgang til rammeverk som TensorFlow og PyTorch for å utvikle med deres foretrukket AI programmeringsspråk.
Hvordan sammenligner Instinct AI-akseleratorer med Radeon GPU AI-akseleratorer?
AMD tilbyr sin Instinct-serie av GPUer for bedrifter og Radeon GPUer for vanlige forbrukere. Som diskutert tidligere, bruker Instinct GPU AMDs CDNA-arkitektur, HBM og Infinity Fabric interconnect. Motsatt bruker Radeon AMDs RDNA-arkitektur, DDR6-minne og Infinity Cache.
Selv om de er mindre kapable, pakker Radeon-serien med AI-akseleratorer fortsatt en kraft ved å implementere én eller to AI-akseleratorkjerner per beregningsenhet. Det siste Radeon RX7900 XT GPU har to AI-akseleratorkjerner per beregningsenhet, noe som gir mulighet for 103 TFLOPs med topp halvpresisjon og 52 TFLOPs med topp enkeltpresisjonsberegninger.
Mens Instinct-serien med GPUer er bedre egnet for LLM-er og HPC, kan Radeon AI-akseleratorer brukes til å finjustere forhåndstrente modeller, inferencing og grafikkintensive oppgaver.
AMD Instinct vs. NVIDIA Tensor
I følge a TrendForce-undersøkelse, NVIDA har 80 % markedsandel for server-GPUer, mens AMD bare har 20 %. Denne overveldende suksessen fra NVIDIA er fordi de er et selskap som spesialiserer seg på GPU-design og montering. Dette lar dem designe GPU-er med betydelig bedre ytelse uten sidestykke av andre tilbud.
La oss sammenligne AMDs Instinct MI205X og NVIDIAs H100SXM5 ved å bruke spesifikasjoner fra AMDs offisielle nettsted og NVIDIAs eget datablad:
GPU-modell |
FP64 (TFLOP) |
FP32 (TFLOP) |
FP16 (TFLOP) |
INT8 (TFLOP) |
---|---|---|---|---|
AMD Instinct MI250X |
30.0 |
60.0 |
1000 |
2000 |
NVIDIA H100SXMS |
47.9 |
95.7 |
383.2 |
383 |
Som du kan se i tabellen, yter AMDs MI250X bedre når det gjelder dobbelpresisjon og halvpresisjon beregninger, mens NVIDIAs H100SXMS er langt bedre når det gjelder halvpresisjons- og kvartpresisjonsmatrise beregninger. Dette gjør AMDs MI250X bedre egnet for HPC mens NVIDIAs H100SXMS med AI-læring og inferencing.
Fremtiden til AMDs instinktprosessorer
Selv om AMDs siste tilbud, MI250X, er designet for HPC, er deres kommende MI300 mer AI-treningsorientert. Denne AI-akseleratoren er annonsert å være en APU, som kombinerer GPU og CPU i én pakke. Dette gjør at MI300 kan bruke sin CNDA3 Unified Memory APU-arkitektur, der GPU og CPU bare vil bruke ett minne, noe som øker effektiviteten og reduserer prisen.
Selv om AMD ikke vil konkurrere med NVIDIA på AI-akseleratormarkedet i dag, så snart MI300 blir utgitt og ROCm blir polert, kan AMDs Instinct-serie akkurat være god nok til å rive en betydelig del av AI-akseleratormarkedet fra NVIDIA.