AMD MI1000 Instinct Accelerator 7nm GPU for HPC offisielt lansert med 11,5 Teraflops av topp ytelse med dobbel presisjon flytende punkt

AMDs aller første GPU basert på CDNA Architecture, MI100 er offisiell. MI100 Instinct Accelerator GPU hevdes som "verdens raskeste HPC GPU" med 11,5 teraflops med topp ytelse med dobbel presisjon. GPU hevder å pakke dobbelt så mange beregningsenheter som forrige generasjon mens de holder seg innenfor den samme 300-watt effektgrensen.

AMD kunngjorde i dag det nye MI100 Instinct-akselerator. GPU er basert på CDNA-motoren som skiller seg litt fra RDNA Architecture som driver den nyeste AMD Radeon RX 6000-serien med grafikkort. MI100 Instinct Accelerator etterfølger MI50 og MI60 Instinct-akseleratorene som ble lansert for to år siden. Til tross for den relativt korte tidsperioden mellom generasjoner, tillater den nye GPU-arkitekturen og Compute Engine AMD GPU å overgå forventningene.

AMD MI1000 Instinct Accelerator 7nm GPU for HPC-bransjespesifikasjoner og funksjoner:

MI100 GPU er den første som inkorporerer AMDs Compute DNA (CDNA) arkitektur. GPU-en har 210 beregningsenheter ordnet i fire matriser. CDNA-arkitekturen er et betydelig evolusjonært sprang sammenlignet med GCN-arkitekturen, og den inkluderer nye matrisekjernemotorer som øker beregningsgrensen for forskjellige numeriske formater.

AMD hevder at den nye AMD-matrisekjerneteknologien gir MI100 en 7x større topp-ytelse med flytende punkt ytelse sammenlignet med MI50. Selskapet hevder at MI100 Instinct Accelerator tilbyr 46,1 teraflops peak single-precision matrix (FP32), 23,1 teraflops peak single-precision (FP32), 184,6 teraflops peak half-precision (FP16) floating-point performance, og 92,3 peak teraflops of bfloat16 performance .

De MI100 får også AMDs Infinity Fabric Technology som hevdes å tilby omtrent 2x peer-to-peer peak I / O båndbredde over PCIe 4.0 med opptil 340 GB / s samlet båndbredde per kort. I virkelige distribusjoner kan MI100 GPUer konfigureres med opptil to integrerte Quad GPU-elveblest, som hver gir opptil 552 Gbps peer-to-peer I / O-båndbredde.

Tilsvarende gir fire stabler med 8 GB HBM2-minne totalt 32 GB HBM2-minne på hver MI100 GPU. Med en 1,2 GHz klokkehastighet tilbyr minnet 1,23 Tbps minnebåndbredde. MI100s støtte for PCIe Gen 4.0-teknologi muliggjør 64 Gbps topp teoretisk transportdatabåndbredde mellom CPU og GPU.

Er AMD MI100 Accelerator GPU bedre enn NVIDIA A100 GPU?

Strengt på papir, ser AMDs MI100 GPU bedre ut enn NVIDIA A100 GPU, som er vurdert til 9,7 teraflops av topp teoretisk ytelse. Imidlertid tilbyr NIVIDIA A100 høyere ytelse FP64 Linpack-løp.

AMDs CDNA og RDNA Architecture er i det vesentlige de samme, med den største forskjellen som er sluttbruker-scenariene. Det er imidlertid noen få grunnleggende forskjeller som ikke tillater at CDNA Architecture brukes til gjengivelse av spill eller visuelt innhold.

Forøvrig forbereder AMD ROCm, som er selskapets åpen kildekodeverktøy som består av kompilatorer, programmerings-API-er og biblioteker. Dette verktøysettet vil tjene som grunnlag for arbeidsmengder for beregning av eksaskala. Den siste ROCm 4.0 har oppgradert kompilatoren til å være åpen kildekode og samlet for å støtte både OpenMP 5.0 og HIP. Enkelt sagt, konkurransen mellom AMD og NVIDIA i HPC-segmentet strekker seg utover enkle muligheter og rå prosessorkraft.