Nvidia GPUer har kommet langt, ikke bare når det gjelder spillytelse, men også i andre applikasjoner, spesielt kunstig intelligens og maskinlæring. De to hovedfaktorene som er ansvarlige for Nvidias GPU-ytelse er CUDA- og Tensor-kjernene som finnes på omtrent alle moderne Nvidia GPUer du kan kjøpe.
Men nøyaktig hva gjør disse kjernene, og hvis de begge brukes i kunstig intelligens og maskinlæringsapplikasjoner, hvordan er de annerledes?
Hva er CUDA-kjerner, og hva brukes de til?
CUDA står for Compute Unified Device Architecture, som ikke gjør mye for å forklare deres tilstedeværelse i en GPU. Disse kjernene ble introdusert i Nvidia GPU-serien i 2014 Maxwell-arkitekturen og spesialiserer seg på parallell prosessering.
De er ganske like CPU-kjerner når det gjelder funksjon, men er bedre til å håndtere visse oppgaver, inkludert kryptografiske hasher, fysikkmotorer, datavitenskap-relaterte prosjekter og til og med spill utvikling.
Mens vi allerede har dekket hvordan CUDA-kjerner påvirker PC-ens spillytelse
, de er like hjelpsomme med å knuse tall. Mens selv de kraftigste CPU-ene har tosifrede kjerner, kommer Nvidia GPU-er med flere tusen CUDA-kjerner som gjør dem mye raskere ved numeriske arbeidsbelastninger. I tillegg, siden de gjør disse beregningene parallelt, får du mye raskere hastigheter med CUDA-kjerner.CUDA-kjerner er raskere enn løpende CPU-kjerner når det kommer til knusende tall, men de er fortsatt ikke den ideelle løsningen. Det er fordi de aldri var ment å brukes på den måten. CUDA-kjerner ble spesialbygd for grafisk prosessering og for å gjøre Nvidia GPUer mer kapable til spillytelse.
Hva er tensorkjerner, og hva brukes de til?
Da GPUer begynte å bli brukt til kunstig intelligens og maskinlæringsarbeidsbelastninger, introduserte Nvidia Tensor-kjerner i Volta-arkitekturen for sine datasenter-GPUer fra og med 2017.
Det tok imidlertid før Nvidia Turing-arkitekturen (RTX 20-serien GPUer) før disse kjernene kom til forbruker-GPUer. Huske at mens kortene i GTX 16-serien også er basert på Turing-arkitekturen, inkluderer de ikke noen strålesporing eller Tensor kjerner.
Mens CUDA-kjerner i beste fall var tilstrekkelige for beregningsmessige arbeidsbelastninger, økte Tensor-kjernene ante ved å være betydelig raskere. Mens CUDA-kjerner bare kan utføre én operasjon per klokkesyklus, kan Tensor-kjerner håndtere flere operasjoner, noe som gir dem et utrolig ytelsesløft. I utgangspunktet er alt Tensor-kjerner gjør å øke hastigheten på matrisemultiplikasjon.
Denne økningen i beregningshastighet kommer på bekostning av nøyaktighet, med CUDA-kjerner som er betydelig mer nøyaktige. Når det er sagt, når det gjelder opplæring av maskinlæringsmodeller, er Tensor-kjerner langt mer effektive når det gjelder beregningshastighet og totalkostnad; derfor blir tapet i nøyaktighet ofte neglisjert.
Hvordan påvirker Tensor- og CUDA-kjerner GPU-ytelsen?
Som du sikkert kan gjette nå, mens CUDA- og Tensor-kjerner kan håndtere de samme arbeidsbelastningene, er de begge spesialiserte kjerner for henholdsvis grafikkgjengivelse og numeriske arbeidsbelastninger.
Dette betyr at avhengig av brukeren som en bestemt GPU er rettet mot, vil den ha et annet antall kjerner. Hvis vi for eksempel vurderer RTX 4090, Nvidias nyeste og beste forbrukerrettede spill-GPU, vil du få langt flere CUDA-kjerner enn Tensor-kjerner. 16 384 CUDA-kjerner til 512 Tensor-kjerner, for å være spesifikk.
Til sammenligning har Nvidia L40 GPU for datasentre, basert på samme Ada Lovelace-arkitektur som RTX 4090, 18 176 CUDA-kjerner og 568 Tensor-kjerner. Dette virker kanskje ikke som den store forskjellen, men det kan påvirke ytelsen til disse GPU-ene enormt.
Når det gjelder teoretisk ytelse, har L40 90,52 TFlops FP16- og FP32-ytelse samt 1414 GFlops FP64-ytelse. Dette er en massiv ytelsesøkning sammenlignet med RTX 4090s 82,58 TFlops med FP16- og FP32-ytelse og 1290 GFlops med FP64-ytelse.
Med mindre du er godt bevandret med numeriske GPU-ytelsestall, kan det hende at Nvidia GPU-flytepunktsytelsestallene ovenfor ikke betyr mye for deg. Kort fortalt viser de imidlertid at L40 er mye raskere enn RTX 4090 når det kommer til numeriske beregninger – de som trengs for kunstig intelligens og maskinlæringsbaserte arbeidsbelastninger.
Ytelsesforbedringen blir desto mer imponerende når du tenker på strømforbruket til de to GPUene. RTX 4090 har en klassifisert TGP (For ikke å forveksle med TDP, det er en liten forskjell) på 450W, mens L40 er vurdert til kun 300W.
Begge disse GPU-ene vil kjøre spill og trene maskinlæringsmodellen din helt fint. Imidlertid vil RTX 4090 være bedre til å kjøre spill, og L40 vil være bedre til å trene maskinlæringsmodeller.
CUDA Cores vs. Tensorkjerner: Hva er viktigere?
Begge kjernene er like viktige, uavhengig av om du kjøper GPUen din for spilling eller legger den i et datasenterstativ. Nvidias forbrukervendte spill-GPUer bruker en haug med AI-funksjoner (spesielt DLSS), og det kan være nyttig å ha Tensor-kjerner om bord.
Når det gjelder datasenter-GPUer, fungerer CUDA- og Tensor-kjerner i tandem det meste av tiden uansett, så du får begge uansett hvilken GPU du velger. I stedet for å fokusere på en bestemt type kjerne i GPUen din, bør du fokusere mer på hva grafikkortet gjør som helhet og hvilken type bruker det er ment for.
CUDA-kjerner spesialiserer seg på å håndtere grafiske arbeidsbelastninger, mens Tensor-kjerner er bedre på numeriske. De jobber sammen og er utskiftbare til en viss grad, men de håndterer sine egne spesialiseringer, og det er derfor de eksisterer i utgangspunktet.
Ulike GPUer spesialiserer seg på forskjellige aspekter. RTX 4090 vil enkelt knuse ethvert spill du kaster på den, mens RTX 4060 bare kan håndtere 1080p-spilling. Hvis du ikke spiller med GPUen din og bare trenger den for å knuse tall eller trene nevrale nettverk, er en A-Series datasenter GPU som A100 eller til og med L40 det beste alternativet.
Dine GPU-kjerner betyr noe
Flere GPU-kjerner vil gi deg bedre total ytelse ettersom GPUen din vil være mer allsidig og ha dedikerte ressurser for å håndtere forskjellige oppgaver. Å få blindt en GPU med det høyeste antallet kjerner er imidlertid ikke den beste avgjørelsen. Ta deg tid til å vurdere brukstilfellet nøye, ta en titt på GPU-ens muligheter som helhet, og ta deretter valget ditt.