Se filtran nuevas especificaciones de las RTX 30

NVIDIA parece haber proporcionado más información a la prensa con respecto a sus tarjetas gráficas de la serie GeForce RTX 30. La información es parte de una sesión de NDA que analiza más de cerca las GPU Gaming Ampere GA102 y GA104 que aterrizarán en el mercado de los juegos en las próximas semanas.

GPU GA102. La madre de las RTX 3090 y 3080

La GPU NVIDIA GA102 es la GPU insignia que presenta un tamaño de matriz de 628 mm2 y se empaqueta en un total de 28 mil millones de transistores. Según NVIDIA, la GPU GA102 comprende 6 GPC que son los Clústeres de procesamiento de gráficos y 6 TPC (Clústeres de procesamiento de texturas).

La GPU GA102 de la RTX 3090 utiliza 41 TPC u 82 SM (Streaming Multi-processors), mientras que la GeForce RTX 3080 utiliza 34 TPC o 68 SM. Cada SM de la GPU Ampere cuenta con 128 núcleos CUDA junto con una estructura rediseñada que detallaremos a continuación. La GPU GA102 del RTX 3090 cuenta con un total de 10.496 núcleos, mientras que la del RTX 3080 cuenta con 8.704 núcleos.

En términos de densidad de GPU, la GPU GA102 es aproximadamente dos veces más densa que la GPU Turing TU102 con 44,56 millones de transistores por milímetro cuadrado frente a 24,67 millones de transistores por milímetro cuadrado en Turing y todo eso en el nodo de proceso Samsung de 8 nm.

Cada SM consta de cuatro núcleos tensores y 1 núcleo RT. La GPU GA102 cuenta con una caché L2 compartida. Son 6 MB para la GeForce RTX 3090 y 5 MB para la RTX 3080. El diagrama de bloques de GPU específico que se ha compartido muestra un total de diez controladores de memoria de 32 bits para la GeForce RTX 3080 que entregan un bus de 320 bits. La GeForce RTX 3090 contará con un total de doce controladores de memoria de 32 bits para una interfaz de bus de 384 bits.

GPU GA104. La madre de la RTX 3070 y la más optimizada para juegos.

En el corazón de la tarjeta gráfica NVIDIA GeForce RTX 3070 se encuentra la GPU GA104. La GA104 es una de las muchas GPU Ampere que obtendremos en el segmento de juegos. La GPU GA104 es el segundo chip Ampere más rápido. La GPU se basa en el nodo de proceso de 8nm (N8) de Samsung. La GPU mide 395,2 mm2 y cuenta con 17,4 mil millones de transistores, que son casi el 93% de los transistores incluidos en la GPU TU102. Al mismo tiempo, la GPU GA104 tiene casi la mitad del tamaño de la GPU TU102.

Para la GeForce RTX 3070, NVIDIA ha habilitado un total de 46 unidades SM en su modelo insignia, lo que da como resultado un total de 5888 núcleos CUDA. Además de los núcleos CUDA, la GeForce RTX 3070 de NVIDIA también viene equipada con núcleos RT (Ray-Tracing) de próxima generación, núcleos Tensor y nuevas unidades SM o Streaming Multi-Processors. La GPU cuenta con un total de 184 núcleos Tensor y 46 núcleos RT. Existe una gran posibilidad de que la GPU GA104 venga con una configuración de núcleo 6144 completa que podría lanzarse en una variante de tarjeta gráfica futura. La GPU GA104 cuenta con una caché compartida L2 de 4 MB y tiene un total de ocho controladores de memoria de 32 bits para una interfaz de bus de 256 bits de ancho.

NVIDIA Ampere SM (Streaming Multi-Processors): el doble de rendimiento de FP32

Habéis oido hablar mucho de los SM pues ahi va una explicación. Las tarjetas de la serie NVIDIA GeForce RTX 30 con GPU Ampere también vienen con un nuevo diseño SM que fue explicado recientemente por Tony Tamasi, Vicepresidente de contenido y tecnología de Navidia. A continuación se muestran todos los detalles de las novedades de la arquitectura SM Ampere:

Uno de los objetivos de diseño clave para el Ampere 30-series SM fue lograr el doble de rendimiento para las operaciones FP32 en comparación con Turing SM. Para lograr este objetivo, Ampere SM incluye nuevos diseños de rutas de datos para las operaciones FP32 e INT32. Una ruta de datos en cada partición consta de 16 núcleos CUDA FP32 capaces de ejecutar 16 operaciones FP32 por reloj. Otra ruta de datos consta de 16 núcleos CUDA FP32 y 16 núcleos INT32. Como resultado de este nuevo diseño, cada partición Ampere SM es capaz de ejecutar 32 operaciones FP32 por reloj o 16 operaciones FP32 y 16 INT32 por reloj. Las cuatro particiones SM combinadas pueden ejecutar 128 operaciones FP32 por reloj, que es el doble de la frecuencia FP32 del Turing SM, o 64 operaciones FP32 y 64 INT32 por reloj.

Duplicar la velocidad de procesamiento para FP32 mejora el rendimiento de una serie de gráficos y operaciones y algoritmos informáticos comunes. Las cargas de trabajo de sombreado moderno suelen tener una combinación de instrucciones aritméticas FP32 como FFMA, adiciones de punto flotante (FADD) o multiplicaciones de punto flotante (FMUL), combinadas con instrucciones más simples como sumas de enteros para direccionar y obtener datos, comparación de punto flotante , o mínimo / máximo para los resultados de procesamiento, etc. Las ganancias de rendimiento variarán en el nivel de sombreado y de aplicación según la combinación de instrucciones. Los sombreadores de eliminación de ruido de trazado de rayos son buenos ejemplos que podrían beneficiarse enormemente de duplicar el rendimiento de FP32.

Duplicar el rendimiento matemático requirió duplicar las rutas de datos que lo soportan, razón por la cual Ampere SM también duplicó la memoria compartida y el rendimiento de la caché L1 para el SM. (128 bytes / reloj por amperio SM frente a 64 bytes / reloj en Turing). El ancho de banda L1 total para GeForce RTX 3080 es 219 GB / seg frente a 116 GB / seg para GeForce RTX 2080 Super.

Al igual que las GPU NVIDIA anteriores, Ampere se compone de grupos de procesamiento de gráficos (GPC), grupos de procesamiento de texturas (TPC), multiprocesadores de transmisión (SM), operadores de ráster (ROPS) y controladores de memoria.

El GPC es el bloque de hardware de alto nivel dominante con todas las unidades de procesamiento de gráficos clave que residen dentro del GPC. Cada GPC incluye un motor de ráster dedicado y ahora también incluye dos particiones ROP (cada partición contiene ocho unidades ROP), que es una nueva característica para las GPU NVIDIA Ampere Architecture GA10x. Se pueden encontrar más detalles sobre la arquitectura NVIDIA Ampere en el Informe técnico de arquitectura Ampere de NVIDIA, que se publicará en los próximos días.

Echando un vistazo más de cerca a la unidad Ampere SM, cada bloque consta de 128 unidades FP32. Sin embargo, una de las dos rutas de datos FP32 también puede ejecutar simultáneamente operaciones INT32. Los núcleos tensoriales constan de 4 unidades, hay cuatro unidades de textura por SM y un solo núcleo RT.

Para sus núcleos Tensor de tercera generación, NVIDIA está usando la misma arquitectura de dispersión que han usado en la línea de GPU Ampere HPC. Si bien Ampere presenta 4 núcleos de tensor por SM en comparación con los 8 núcleos de tensor de Turing por SM, no solo se basan en el nuevo diseño de tercera generación, sino que también obtienen un mayor recuento con la matriz de SM más grande. La GPU Ampere puede ejecutar 128 operaciones FP16 FMA por núcleo tensor utilizando todos sus núcleos INT16 y con escasez, puede hacer hasta 256. El total de operaciones FP16 FMA por SM se incrementa a 512 y 1024 con escasez. Eso es un aumento del doble con respecto a la GPU Turing en términos de rendimiento de inferencia con el diseño actualizado de Tensor.

Lo mismo ocurre con los núcleos de trazado de rayos que, en su segunda iteración, ofrecen el doble de intersecciones de rayos en comparación con la arquitectura de Turing. El mayor número de SM también equivale a un mayor número de núcleos RT y eso también afecta el rendimiento general de la aceleración del trazado de rayos en Ampere.

La memoria Micron GDDR6X

La memoria Micron GDDR6X trae muchas cosas nuevas. Es más rápido, duplica la velocidad de datos de E/S y es el primero en implementar la señalización multinivel PAM4 en las matrices de memoria. Con los productos de clase Geforce RTX 3090, la memoria GDDR6X de Micron alcanza un ancho de banda de hasta 1 TB/s que se utiliza para potenciar las experiencias de juego de próxima generación con resoluciones de alta fidelidad como 8K.

El nuevo GDDR6X SGRAM:

  • Duplica la velocidad de datos de SGRAM a una menor potencia por transacción mientras permite romper el límite de ancho de banda de la memoria del sistema de 1 terabyte por segundo (TB/s) para aplicaciones de tarjetas gráficas;
  • Es el primer dispositivo de memoria de gráficos discretos que emplea señalización codificada PAM4 entre el procesador y la DRAM, usando cuatro niveles de voltaje para codificar y transferir dos bits de datos por reloj de interfaz.
  • Se puede diseñar y operar de manera estable a altas velocidades y producción en masa incorporada.

Como se mencionó, GDDR6X presenta las nuevas técnicas de señalización multinivel PAM4 que ayudan a transferir datos mucho más rápido, duplican la velocidad de E/S y aumentan la capacidad de cada memoria de 64 GB/s a 84 GB/s. Las matrices de memoria Micron GDDR6X también son las únicas DRAM de gráficos que se pueden producir en masa mientras cuentan con señalización PAM4.

Lo que es interesante es que Micron cita que su memoria GDDR6X puede alcanzar velocidades de hasta 21 Gbps, mientras que solo hemos podido ver 19.5 Gbps en acción en la GeForce RTX 3090. Es probable que los ensambladores puedan utilizar troqueles agrupados más altos a medida que estén disponibles. Micron también confirma que planean ofrecer velocidades superiores a 21 GB/s en 2021, pero tendremos que esperar y ver si alguna tarjeta las utilizará.

No se trata solo de velocidades más rápidas, sino que el GDDR6X de Micron proporciona un mayor ancho de banda mientras consume un 15% menos de energía por bit transferido en comparación con la memoria GDDR6 de la generación anterior.

Nueva refrigeración para las RTX 30

NVIDIA ha desarrollado uno de sus mejores y más potentes diseños de refrigeración Founders Edition hasta la fecha para las tarjetas gráficas de la serie GeForce RTX 30. NVIDIA explicó que un mayor rendimiento requiere una nueva forma de solución de enfriamiento y, como tal, ha preparado una solución de enfriamiento única para sus tarjetas de próxima generación que mantendrá las GPU en frío mientras se mantienen silenciosas al utilizar varias tecnologías nuevas y existentes.

El enfriamiento Founders Edition hace uso de un disipador de calor de aleación de aluminio completo que hace uso de una cámara de vapor híbrida con ventiladores basados ​​en tecnología axial de doble cara. El disipador de calor más frío está recubierto con un recubrimiento de nanocarbono y debería hacer un buen trabajo para mantener las temperaturas bajo control.

También viene con una ubicación de ventilador única, una en la parte delantera y otra en la parte inferior. Esta configuración de ventilador de push and pull que, como se le conoce, expulsa el calor de las rejillas de ventilación de manera mucho más efectiva. Habrá algo de aire que saldrá dentro de la caja desde la parte posterior de la tarjeta, pero eso no debería ser una causa importante de preocupación, ya que las refrigeraciones de aire o líquidas de CPU modernas hacen un muy buen trabajo al ventilar el aire dentro de la caja.

Acústicamente, el nuevo diseño de Founders Edition es más silencioso que los refrigeradores axiales duales tradicionales, al tiempo que ofrece casi el doble de rendimiento de refrigeración que las soluciones de generaciones anteriores. Los cambios de diseño de potencia y NVLink ayudan creando más espacio para el flujo de aire a través de la pila de aletas más grande vista hasta la fecha, y las ventilaciones de soporte más grandes mejoran el flujo de aire en conjunto con las aletas de la cubierta de forma individual. De hecho, dondequiera que miremos, todos los aspectos de las tarjetas Founders Edition están diseñados para maximizar el flujo de aire, minimizar las temperaturas y permitir los niveles más altos de rendimiento con el menor ruido posible.

En términos de ruido y rendimiento más fríos, la GeForce RTX 3080 opera a una temperatura máxima de 78 ° C cuando alcanza su TBP pico de 320 W con una salida de ruido de solo 30 dBA. A modo de comparación, los refrigeradores Turing Founders Edition alcanzan un máximo de 81 ° C con una salida de ruido de 32 dBA cuando alcanzan su TBP de 240 W (RTX 2080 SUPER). En las propias pruebas de NVIDIA, revelan que la GeForce RTX 3080 tiene un promedio de alrededor de 1920 MHz con un consumo de energía de la GPU de 310 W y una temperatura máxima de 76 ° C.

Aquí es también de donde NVIDIA obtiene su cifra de eficiencia 1.9x, ya que el RTX 3080 puede entregar más de 100 FPS mientras es más frío y silencioso en comparación con los 60 FPS de su predecesor de la generación Turing.

La alimentación de las nuevas RTX 3080 y RTX 3090

Uno de los mayores cambios en las tarjetas gráficas Founders Edition GeForce RTX 3090 es el diseño de PCB. GeForce RTX 3090 y GeForce RTX 3080 vienen con un paquete de PCB compacto y único que no se parece a nada que hayamos visto antes. Pero ser compacto no significa que los PCB no tengan un gran impacto. Hay una gran potencia en estos PCB compactos que ha diseñado NVIDIA.

El PCB cuenta con más de 20 power chokes, lo que lo convierte en un diseño más premium que las tarjetas insignia de la serie RTX 20 sin referencia. La GPU funciona con 18 fases, mientras que la memoria recibe energía de 2 fases. NVIDIA promociona esta PCB como una maravilla de overclocking con un margen de overclock de GPU sin precedentes que la mayoría de los usuarios pueden aprovechar para obtener un rendimiento aún más rápido. Pero como señalamos anteriormente, la PCB Founders Edition no es el diseño de referencia y vendrá con una PCB rectangular estándar. Los fabricantes de bloques de agua también han confirmado esto.

Además de eso, las tarjetas Founders Edition de la serie GeForce RTX 30 contarán con conectores de alimentación Micro-Fit 3.0 de 12 pines. Estos conectores no requieren una actualización de la fuente de alimentación, ya que las tarjetas se enviarán con conectores incluidos de 2x 8 pines a 1x 12 pines para que pueda ejecutar su última tarjeta gráfica sin problemas de compatibilidad.

La ubicación del conector de 12 pines en la PCB también es digna de mención. Se coloca en posición vertical y, a juzgar por el diseño de la PCB, podemos decir por qué NVIDIA se movió a un solo enchufe de 12 pines en lugar del diseño estándar de doble 8 pines. Hay espacio limitado en la PCB para hacer cosas y, como tal, era necesario optar por una entrada de energía más pequeña y compacta.

Publicaciones relacionadas

La última actualización de firmware de Nvidia soluciona los errores de pantalla en blanco de las 4080 y 4090

admin

Geforce RTX 4060. La gráfica con el rendimiento de una RTX 3070 al precio de una RTX 3060 Ti

admin

¿Raptor Lake refresh para 2023? no será la única novedad de Intel

admin

Deja un comentario

Información básica sobre protección de datos Ver más

  • Responsable: Miguel Angel Rodríguez.
  • Finalidad:  Moderar los comentarios.
  • Legitimación:  Por consentimiento del interesado.
  • Destinatarios y encargados de tratamiento:  No se ceden o comunican datos a terceros para prestar este servicio.
  • Derechos: Acceder, rectificar y suprimir los datos.
  • Información Adicional: Puede consultar la información detallada en la Política de Privacidad.

Deja un comentario