El rendimiento de latencia de memoria de las arquitecturas de GPU RDNA 2 de AMD y Ampere de NVIDIA ha sido probado por Chips and Cheese . La tienda de tecnología decidió probar el rendimiento de latencia de la memoria de la GPU de las últimas arquitecturas de GPU del equipo rojo y el equipo verde y descubrió algunos resultados interesantes.
En el lado de la CPU, medir el rendimiento de la caché y la latencia se ha convertido en un indicador crucial con el uso cada vez mayor de matrices multi-chiplet y varios chips IO integrados en la misma matriz y, en casos recientes, también fuera de la matriz (chiplets AMD Zen). Las GPU también se componen de varias jerarquías de caché que llenan las brechas entre el rendimiento de la memoria y el cómputo, y la fuente utilizó puntos de referencia basados en OpenCL que persiguen puntos de referencia para medir el rendimiento de latencia de la memoria caché en la generación actual de GPU como NVIDIA Ampere y AMD RDNA 2.
En los puntos de referencia, la AMD Radeon RX 6800 XT (RDNA 2 GPU) y la NVIDIA GeForce RTX 3090 (Ampere GPU) se colocaron una contra la otra. El banco de pruebas de memoria y caché muestra que a la arquitectura RDNA 2 de AMD le fue mucho mejor que a la GPU Ampere de NVIDIA, ofreciendo una latencia más baja a pesar de tener que verificar dos niveles más de caché en el camino hacia la memoria.
La razón indicada es que la GPU GA102 basada en NVIDIA Ampere es simplemente una GPU mucho más grande y, si bien utiliza un subsistema de memoria de GPU más convencional con solo dos niveles de caché, tiene que tomar muchos ciclos y da como resultado una latencia de más de 100ns (de L1 a L2). RDNA 2, por otro lado, tiene una latencia de solo 66ns. Tengamos en cuenta que la GPU AMD Navi 21 es mucho más pequeña y cuenta con una caché L2 de 4 MB, mientras que la GPU NVIDIA GA102 cuenta con una caché L2 de 6 MB para todo el chip. La GPU NVIDIA A100 Ampere para HPC cuenta con una caché L2 brutal de 40 MB.
RDNA 2’s cache is fast and there’s a lot of it. Compared to Ampere, latency is low at all levels. Infinity Cache only adds about 20 ns over a L2 hit and has lower latency than Ampere’s L2. Amazingly, RDNA 2’s VRAM latency is about the same as Ampere’s, even though RDNA 2 is checking two more levels of cache on the way to memory.
In contrast, Nvidia sticks with a more conventional GPU memory subsystem with only two levels of cache and high L2 latency. Going from Ampere’s SM-private L1 to L2 takes over 100 ns. RDNA’s L2 is ~66 ns away from L0, even with a L1 cache between them. Getting around GA102’s massive die seems to take a lot of cycles.
This could explain AMD’s excellent performance at lower resolutions. RDNA 2’s low latency L2 and L3 caches may give it an advantage with smaller workloads, where occupancy is too low to hide latency. Nvidia’s Ampere chips in comparison require more parallelism to shine.

Fuente Chips and Cheese