Image default
AIArtículosFeaturedNoticiasSoftwareTarjetas de VideoTecnología

Detalles de la arquitectura AMD RDNA 4 de las Radeon 9070 Series

La arquitectura RDNA 4 de AMD ha sido muy esperada desde el lanzamiento de la anterior RDNA 3 y su variante mejorada RDNA 3.5. Si bien la arquitectura RDNA 4 no tendrá SKUs para ultra entusiastas, sí viene con cambios completamente nuevos que deberían elevar el rendimiento de los juegos, ya que está diseñada principalmente para audiencias de juegos.

Con RDNA 4, AMD busca fabricar GPU que sean físicamente más pequeñas y, por lo tanto, más baratas de fabricar, con las que pueda librar guerras de precios contra el segmento de rendimiento de NVIDIA y los SKU convencionales, y ganar en cualquier nivel de precio.

Para lograrlo, la empresa tuvo que asegurarse de obtener un salto generacional en el rendimiento por unidad de cómputo (CU), la maquinaria indivisible de procesamiento de números de las GPU de AMD.

RDNA 4 ha logrado una ganancia del 100% en el rendimiento 3D rasterizado clásico sobre RDNA 2 (serie RX 6000). Felicitaciones a AMD por no comparar esto con el anterior RDNA 1 (serie RX 5000). RDNA 3 registró una ganancia de aproximadamente el 35% sobre RDNA 2. Esto es importante, ya que AMD ahora puede reducir la cantidad de CU y hacer que sus matrices de GPU sean físicamente pequeñas. A continuación, vemos que AMD afirma haber logrado una asombrosa ganancia del 240% en el rendimiento del trazado de rayos por CU sobre RDNA 2, que fue la primera arquitectura de GPU DirectX 12 Ultimate de la compañía. RDNA 3 palidece en comparación con una ganancia de solo el 40%.

AMD afirma una ganancia del 400% sobre RDNA 2 y del 200% sobre el RDNA 3 anterior. Esto es enorme, ya que AMD ahora puede aprovechar las capacidades de aceleración de IA del silicio para implementar escaladores basados ​​en ML para FSR 4 que brindan grandes mejoras en la calidad de la imagen en cualquier nivel de calidad determinado.

NAVI 48

Aquí está, el silicio Navi 48 que alimenta la serie RX 9070 en todo su esplendor. El diagrama de bloques se ve terriblemente similar al Navi 10 que alimenta la serie RX 5700, con sus cuatro Shader Engines. En el nivel superior, el Navi 48 es un silicio monolítico, construido sobre el nodo de fundición TSMC N4C (4 nm EUV). Este es técnicamente más avanzado que el nodo N4P sobre el que AMD construye muchos de sus productos de la generación actual.

Image Source: https://x.com/highyieldYT

El Navi 48 es un chip rectangular. Tiene un área de 356,5 mm², pero con un impresionante recuento de transistores de 53,9 mil millones. Para darle a este número un contexto importante, la GPU Navi «grande» anterior, la Navi 31 que alimenta la RX 7900 XTX, tiene 57,8 mil millones de transistores (solo un 8% más), a pesar de tener 96 CU, una Infinity Cache más grande y un bus de memoria más amplio de 384 bits. El Navi 31 tiene un área de matriz de 529 mm² (304 mm² para el GCD de 5 nm, y el resto son MCD de 6 nm), por lo que se puede ver el tipo de avances que AMD hizo con el área de matriz.

En el nivel superior, el Navi 48 presenta una interfaz de host PCI-Express 5.0 x16 y un bus de memoria GDDR6 de 256 bits de ancho. Es sorprendente por qué AMD no publicó ganancias generacionales en el ancho de banda de memoria. Con chips de memoria GDDR6 de 20 Gbps, la RX 9070 XT obtiene 640 GB/s de ancho de banda de memoria. Esto se compensa con una Infinity Cache de 64 MB más rápida y una mejora crítica que AMD realizó en su sistema de administración de memoria, llamada Out-of-Order Memory Queuing, más sobre esto más adelante.

En el corazón de la arquitectura gráfica de RDNA 4 se encuentra la nueva unidad de cómputo dual, con un subsistema de memoria enormemente mejorado, mejoras realizadas en las unidades escalares, una nueva tecnología llamada asignación dinámica de registros y mejoras en la eficiencia de la CU y los relojes del motor. Cada CU tiene dos bloques de programador, que controlan un registro de propósito general (GPR) de 192 KB, un GPR escalar de 8 KB, 32 ALU FMA y 32 ALU FMA+INT. También hay 8 unidades lógicas trascendentales. RDNA 4 introduce el concepto de unidades vectoriales duales SIMD32, para un mayor paralelismo. La unidad escalar viene con soporte para operaciones Float32 más nuevas. Los programadores se actualizan con operaciones de relleno/desbordamiento aceleradas. Se mejora la precarga de instrucciones.

Raytracing

El acelerador de rayos de nueva generación incluye el doble de recursos de intersección de triángulos y cajas que el acelerador RT de RDNA 3, compatibilidad con transformaciones de instancias de hardware, mejoras en la gestión de la pila RT, compresión de nodos BVH8 y una función revolucionaria llamada cuadros delimitadores orientados.

Para contener la cantidad de rayos que realmente se necesitan para probar un objeto, las tecnologías de trazado de rayos modernas utilizan algo llamado cuadro delimitador, que define una región en la que se debe probar una geometría contra los rayos.

La mayor parte del tiempo, la geometría tiene una forma muy diferente y es más pequeña que la forma de un cuadro delimitador, lo que genera intersecciones falsas y desperdicia recursos de prueba de rayos. AMD innovó una forma de convertir este cuadro delimitador en una forma 3D al darle un componente de eje Z, de modo que el cuadro delimitador esté orientado más cerca de la forma del objeto que se va a probar, lo que reduce la cantidad de rayos que se deben probar contra él.

 

Tanto el trazado de rayos como la aceleración de ML son aplicaciones sensibles a la memoria, por lo que AMD innovó con un cambio revolucionario en su sistema de administración de memoria, con la introducción de una nueva memoria fuera de orden. Todos los cálculos se ejecutan en oleadas en una GPU RDNA, y las dependencias mutuas entre oleadas pueden provocar errores en el flujo de solicitudes de memoria, ya que la cola de solicitudes de memoria de una oleada espera a que la otra oleada complete su tarea. Esto se soluciona con una nueva administración de memoria fuera de orden (orden relajado).

En AMD, una gran parte de la pila de trazado de rayos continúa ejecutándose en sombreadores, pero la compañía ha realizado avances para garantizar el costo del trazado de rayos en los recursos de sombreador de la GPU, con la introducción de registros dinámicos, para mejorar el paralelismo.

Los avances que AMD ha logrado con el rendimiento del acelerador RT le han permitido a la empresa realizar avances en el trazado de rutas, con la introducción del muestreo de cuadrícula de luz dirigida y el almacenamiento en caché de radiancia neuronal; la iluminación directa y global de Restir; y un súper muestreo y eliminación de ruido de píxeles basado en ML.

Así es, AMD ahora utiliza un eliminador de ruido basado en IA muy similar al de NVIDIA, lo que debería reducir el costo del rendimiento del sombreador de este proceso crucial de RT.

Inteligencia Artificial y Machine Learning

El acelerador de IA de nueva generación viene con dos velocidades de cómputo de matriz densa de 16 bits y cuatro de 8 bits/4 bits, compatibilidad con dispersión estructurada 4:2 para duplicar el rendimiento y cargas de matriz con transposición. AMD ha incorporado muchas tecnologías de sus aceleradores CDNA 3 Radeon Instinct AI ML en los aceleradores de IA de RDNA 4, incluidos WMMA mejorado y optimizado en términos de consumo de energía, mejoras en las operaciones por CU, compatibilidad con formatos FP8, E4M3 y E5M2 y dispersión estructurada 4:2.

Multimedia

El nuevo Radiance 2 Display Engine viene con importantes actualizaciones de hardware que reducen el consumo de energía de la GPU en inactividad en configuraciones de múltiples monitores. El motor también viene con soporte de medición de volteo de hardware (algo que NVIDIA también introdujo con Blackwell y que habilita Multi-Frame Gen en la serie RTX 50). La medición de volteo mejora el ritmo de los cuadros de video en la GPU y reduce la sobrecarga de la CPU para la reproducción de video. También hay un componente de nitidez de imagen de hardware a nivel de motor de pantalla que impulsa Radeon Image Sharpening. En cuanto a E/S, obtienes DisplayPort 2.1a y HDMI 2.1b contemporáneos, estamos esperando para confirmar las tasas de bits UHBR.

Navi 48 viene con un motor de medios dual, cada uno de los dos puede realizar codificación y decodificación simultáneas, por lo que la implementación se asemeja a una GPU NVIDIA con dos unidades NVENC y NVDEC. El motor de medios de nueva generación ofrece un aumento del 25% en la calidad de codificación de baja latencia H.264 y una mejora del 11% en la calidad de codificación HEVC. La codificación y decodificación AV1 obtienen soporte para fotogramas B, lo que mejora enormemente las tasas de bits. Un fotograma B es un fotograma que carece de información de imagen, pero en su lugar tiene valores de vector de movimiento, lo que permite al decodificador reconstruir el componente de imagen utilizando fotogramas I pasados ​​y futuros (fotogramas con datos de imagen). El motor de medios registra una mejora del rendimiento generacional del 50% (medida en tasas de cuadros del codificador/decodificador), con reducciones en la sobrecarga de memoria.

Posts relacionados

G.SKILL Anuncia el Primer Kit de Memoria DDR5-8000 de 128GB del mundo

Mario Rübke

AMD Impulsa el Rendimiento de sus GPUs Instinct en IA con Resultados Destacados en MLPerf

Mario Rübke

G.SKILL lanza nuevos módulos DDR5 de alto rendimiento para plataformas AMD, hasta DDR5-8000 CL36!

Mario Rübke