El día de hoy tenemos ante nosotros la tarjeta de video más poderosa que existe a la fecha, se trata de la GeForce RTX 4090 Founders Edition, la actual modelo tope de línea de NVIDIA en tarjetas de video para gamers, con un poder de procesado realmente sorprendente.
NVIDIA GeForce RTX 4090 «Ada Lovelace» pasa la página, presentando una nueva generación de hardware de gráficos que promete no solo un rendimiento de juego rápido, sino que también hace que el raytracing en tiempo real sea prácticamente «gratis».
Ada también promete mejoras revolucionarias en la capacidad DLSS de NVIDIA: generar cuadros completos solo con IA, sin involucrar la maquinaria principal de procesamiento de gráficos de la GPU. Esto en sí mismo es tan significativo que la empresa se refiere a él como «neural rendering» y lo coloca junto con las otras dos técnicas clave de representación gráfica: rasterización y raytracing. Con la nueva GeForce RTX 4090, NVIDIA promete una mejora generacional en el rendimiento del tipo que estábamos viendo cuando la Ley de Moore todavía funcionaba para las GPU: casi un 50 % generación tras generación.
Arquitectura.
La arquitectura de gráficos de Ada anuncia la tercera generación de la tecnología NVIDIA RTX, un esfuerzo por aumentar el realismo en las imágenes de los juegos al aprovechar el trazado de rayos en tiempo real, sin la enorme cantidad de potencia informática necesaria para dibujar gráficos 3D con trazado de rayos puro. Esto se logra mediante la combinación de gráficos de trama convencionales con elementos de trazado de rayos, como reflejos, iluminación e iluminación global, por nombrar algunos.
La tercera generación de RTX anuncia el nuevo núcleo CUDA «Ada» de IPC más alto, el núcleo RT de tercera generación, el núcleo Tensor de cuarta generación y el nuevo procesador de flujo óptico, un componente que juega un papel clave en la generación de nuevos marcos sin involucrar los gráficos principales de la GPU. canalización de representación.
La arquitectura de gráficos GeForce Ada que impulsa el RTX 4090 aprovecha el proceso de fundición EUV de 4 nm de TSMC para aumentar la cantidad de transistores a 76.300 millones de transistores, casi tres veces más que la generación anterior; mientras que el tamaño del troquel es en realidad más pequeño, de 608 mm², en comparación con los 628 mm² del GA102 de la generación anterior. La GPU cuenta con una interfaz de host PCI-Express 4.0 x16 y un bus de memoria GDDR6X de 384 bits de ancho, que en el RTX 4090 se conecta a 24 GB de memoria. El Acelerador de Flujo Óptico (OFA) es un componente independiente de alto nivel. El chip cuenta con dos unidades NVENC y una NVDEC en la serie GeForce RTX 40; mientras que las futuras tarjetas gráficas de visualización profesional tendrán habilitados los seis componentes NVENC y NVDEC.
La jerarquía de componentes esenciales es similar a las generaciones anteriores de GPU NVIDIA. El silicio AD102 presenta la increíble cantidad de 12 clústeres de procesamiento de gráficos (GPC), cada uno de ellos tiene toda la maquinaria de representación de gráficos y SIMD, y es una GPU pequeña por derecho propio. Cada GPC comparte un motor ráster (componentes de procesamiento de geometría) y dos particiones ROP (cada una con ocho unidades ROP).
El GPC del AD102 contiene seis clústeres de procesamiento de texturas (TPC), la principal maquinaria de procesamiento de números. Cada uno de estos tiene dos Streaming Multiprocessors (SM) y una unidad Polymorph. Cada SM contiene 128 núcleos CUDA en cuatro particiones. La mitad de estos núcleos CUDA son puros FP32; mientras que la otra mitad es capaz de FP32 o INT32.
El SM retiene la capacidad de procesamiento matemático FP32+INT32 concurrente. El SM también contiene un núcleo RT de tercera generación, cuatro núcleos Tensor de cuarta generación, algo de memoria caché y cuatro TMU. Hay 12 SM por GPC, por lo que 1536 núcleos CUDA, 48 núcleos Tensor y 12 núcleos RT; por GPC. Por lo tanto, doce GPC suman 18,432 núcleos CUDA, 576 núcleos Tensor y 144 núcleos RT. Cada GPC contribuye con 16 ROP, por lo que hay 192 ROP gigantes en el silicio. Un caché L2 de 96 MB sirve como plaza central para los diversos GPC, controladores de memoria y la interfaz de host PCIe, para intercambiar datos. NVIDIA extrajo el RTX 4090 del AD102 al deshabilitar uno de los doce GPC y otros dos TPC de dos de los otros GPC, como se muestra en las partes sombreadas en rojo del diagrama de bloques anterior. La GeForce RTX 4090 tiene 72 MB de caché L2 habilitados (de los 96 MB presentes físicamente en el silicio).
El núcleo RT de tercera generación acelera los aspectos más intensivos en matemáticas del trazado de rayos en tiempo real, incluido el recorrido BVH. El motor de micromalla desplazada es una función revolucionaria introducida con el nuevo núcleo RT de tercera generación, que acelera la función de micromalla desplazada. Así como los sombreadores de malla y el teselado han tenido un profundo impacto en la mejora del rendimiento con geometría ráster compleja, lo que permite a los desarrolladores de juegos aumentar significativamente la complejidad geométrica; Los DMM son un método para reducir la complejidad de la estructura de datos de la jerarquía de volumen límite (BVH), que se utiliza para determinar dónde un rayo golpea la geometría.
Anteriormente, el BVH tenía que capturar hasta los detalles más pequeños para determinar correctamente el punto de intersección. La arquitectura de trazado de rayos de Ada recibe una gran mejora en el rendimiento gracias a Shader Execution Reordering (SER), una característica definida por software que requiere el conocimiento de los motores de juego para ayudar a la GPU a reorganizar y optimizar los subprocesos de trabajo asociados con el trazado de rayos.
El BVH ahora no necesita tener datos para cada triángulo en un objeto, pero puede representar objetos con geometría compleja como una malla gruesa de triángulos base, lo que simplifica enormemente la estructura de datos de BVH. Un BVH más simple significa menos memoria consumida y ayuda a reducir en gran medida la carga de la CPU de trazado de rayos, porque la CPU solo tiene que generar una estructura más pequeña. Con los núcleos RT «Amperio» y «Turing» más antiguos, cada triángulo en un objeto tenía que ser muestreado a gran altura, por lo que el núcleo RT podía calcular con precisión la intersección del rayo para cada triángulo. Con Ada, el BVH más simple, además de los mapas de desplazamiento, se pueden enviar al núcleo RT, que ahora puede determinar el punto de impacto exacto por sí mismo. NVIDIA ha visto una compresión de 11: 1 a 28: 1 en el recuento total de triángulos. Esto reduce los tiempos de compilación de BVH en 7,6x a más de 15x, en comparación con el núcleo RT más antiguo; y reduciendo su huella de almacenamiento entre 6,5 y 20 veces. Los DMM podrían reducir la utilización del ancho de banda del disco y la memoria, la utilización del bus PCIe, así como también reducir la utilización de la CPU. NVIDIA trabajó con Simplygon y Adobe para agregar compatibilidad con DMM para sus cadenas de herramientas.
Opacity Micro Meshes (OMM) es una nueva característica introducida con Ada para mejorar el rendimiento de la rasterización, particularmente con objetos que tienen alfa (datos de transparencia). La mayoría de los objetos de baja prioridad en una escena 3D, como las hojas de un árbol, son esencialmente rectángulos con texturas en las hojas donde la transparencia (alfa) crea la forma de la hoja. Los núcleos RT tienen dificultades para cruzar los rayos con tales objetos, porque en realidad no tienen la forma que parecen (en realidad son solo rectángulos con texturas que le dan la ilusión de forma. Los núcleos RT de la generación anterior tenían que tener múltiples interacciones con la etapa de renderizado para descubrir la forma de un objeto transparente, porque no pudieron probar alfa por sí mismos.
Esto se ha resuelto mediante el uso de OMM. Así como los DMM simplifican la geometría al crear mallas de microtriángulos; Los OMM crean mallas de texturas rectangulares que se alinean con partes de la textura que no son alfa, por lo que el núcleo RT tiene una mejor comprensión de la geometría del objeto y puede calcular correctamente las intersecciones de los rayos. Esto también tiene un impacto significativo en el rendimiento del sombreado en aplicaciones que no son RT. Las aplicaciones prácticas de los OMM no son solo objetos de baja prioridad como la vegetación, sino también duendes de humo y niebla localizada.
Tradicionalmente, había mucho sobredibujado para tales efectos, porque superponían múltiples texturas una encima de la otra, que los sombreadores tenían que procesar por completo. Ahora solo se ejecutan los píxeles no opacos: los OMM proporcionan un 30 % de aceleración con las tasas de llenado del búfer de gráficos y un 10 % de impacto en las tasas de fotogramas.
DLSS 3 presenta una nueva característica revolucionaria que promete duplicar la velocidad de cuadros con una calidad comparable, se llama generación de cuadros AI. Si bien tiene todas las funciones de DLSS 2 y su superresolución de IA (ampliación de un cuadro de menor resolución a resolución nativa con una pérdida de calidad mínima); DLSS 3 puede generar cuadros completos simplemente usando IA, sin involucrar la canalización de representación de gráficos.
Por lo tanto, cada cuadro alterno con DLSS 3 es generado por IA, sin ser una réplica del cuadro renderizado anterior. Esto solo es posible en la arquitectura de gráficos Ada, debido a un componente de hardware llamado acelerador de flujo óptico (OFA), que ayuda a predecir cómo podría verse el próximo cuadro, creando lo que NVIDIA llama un campo de flujo óptico.
OFA garantiza que el algoritmo DLSS 3 no se confunda con objetos estáticos en una escena 3D que cambia rápidamente (como un simulador de carrera). El proceso depende en gran medida de la mejora del rendimiento introducida por el formato matemático FP8 del núcleo Tensor de cuarta generación. Un tercer ingrediente clave de DLSS 3 es Reflex. Al reducir la cola de renderizado a cero, Reflex juega un papel vital para garantizar que los tiempos de cuadro con DLSS 3 estén en un nivel aceptable, y que la cola de renderizado no confunda al escalador. Una combinación de OFA y el núcleo Tensor de 4.ª generación es la razón por la que se requiere la arquitectura Ada para usar DLSS 3 y por la que no funcionará en arquitecturas más antiguas.
Especificaciones.
Especificaciones | NVIDIA RTX 4090 Founders Edition | AMD Radeon RX 7900XTX | NVIDIA RTX 4080 Founders Edition | AMD Radeon RX 7900XT | NVIDIA RTX 3090 Ti |
---|---|---|---|---|---|
Proceso de Fabricación | 4 nm | 5 nm | 4 nm | 5 nm | 8 nm |
GPU | AD102-300-A1 | Navi 31 XTX | AD103-300-A1 | Navi 31 XT | GA102-350-A1 |
Shaders | 16384 | 6144 | 9728 | 5376 | 10752 |
ROPs | 176 | 192 | 112 | 192 | 112 |
Texture Units | 512 | 384 | 304 | 336 | 336 |
Tensor Cores | 512 | - | 304 | - | 336 |
RT Cores / Ray Accelerators | 128 | 96 | 76 | 84 | 84 |
Core Clock | 2235 MHz | 1900 MHz | 2205 MHz | 1500 MHz | 1560 MHz |
Boost Clock | 2520 MHz | 2499 MHz | 2505 MHz | 2394 MHz | 1860 MHz |
Frecuencia de Memoria | 1313 MHz | 2500 MHz | 1400 MHz | 2500 MHz | 1313 MHz |
Memoria | 24 GB, GDDR6X, 384-bit | 24 GB, GDDR6, 384 bit | 16 GB, GDDR6X, 256 bit | 20 GB, GDDR6, 320 bit | 24 GB, GDDR6X, 384 bit |
Conectores | 1x 16-pin | 2x 8-pin | 1x 16-pin | 2x 8-pin | 1x 16-pin |
TDP | 450 W | 355 W | 320 W | 315 W | 450 W |
Precio | $1600 MSRP | $999 MSRP | $1200 MSRP | $899 MSRP | $1999 MSRP |
Primera Mirada.
La RTX 4090 Founders Edition viene en un enorme paquete que se abre hacia arriba, en modo «exhibición», con una combinación de negro con plateado, muy en línea con lo presentado por NVIDIA con las tarjetas basadas en Ampere.
La tarjeta se encuentra perfectamente en el centro, debajo de esta se encuentra la documentación y el cable adaptador PCIe de 4x PCie 8-pin al nuevo 12+4 pin ATX 12VHPWR capaz de entregar hasta 600W de poder.
Esta Founders Edition de NVIDIA tiene un aspecto impresionante. NVIDIA ha realizado pequeñas mejoras en el lenguaje de diseño, lo que lo convierte en un diseño aún más limpio que el que vimos en la serie GeForce RTX-30.
La tarjeta utiliza el nuevo conector ATX 12VHPWR de 12+4 pines, que tiene una potencia nominal de hasta 600 W. Se incluye un cable adaptador de 4x PCIe de 8 pines, también puede ejecutar la tarjeta con solo tres de 8 pines. El límite de potencia predeterminado es de 450 W, por lo que estará perfectamente bien y dentro de las especificaciones (incluso con uno de 8 pines sin conectar). En la parte superior del conector de 16 pines hay cuatro pines de «sentido», que le indican a la tarjeta gráfica cuántos cables de alimentación están conectados, para que la tarjeta pueda ajustar los límites de energía automáticamente.
Las dimensiones de la tarjeta son 31.0 x 14.0 cm y pesa 2181 g.
Al igual que con Ampere, la tarjeta está diseñada para que el flujo de aire la atraviese, por eso hay dos ventiladores. Uno aspira aire frío desde la parte inferior, se empuja a través de la tarjeta y luego se expulsa hacia la parte superior de la caja en el otro lado.
La tarjeta necesita 3 slots de tu gabinete y placa madre. En lo referente a la conectividad incluye tres puertos DisplayPort 1.4a estándar y un HDMI 2.1a (igual que Ampere).
Un pequeño detalle, sobre uno de los biseles de metal, es que se indica el modelo RTX 4090. Sutil.
La tarjeta de video trae consigo un adaptador para quienes aún no cuentan con conector de energía PCIe 5.0, este para su versión de 16 pines, necesita de 4x conectores de 8-pin.
Plataforma de Pruebas y Metodología.
Plataforma de Pruebas | |
---|---|
Procesador | – AMD Ryzen 9 7950X |
Placa Madre | – ASUS CROSSHAIR X670E HERO |
Memorias | – Corsair Dominator Platinum RGB 2x16GB 6000MT/s EXPO DDR5 |
Refrigeración | – Thermaltake Water 3.0 Riing 360 |
Tarjeta de Video | – NVIDIA GeForce RTX 4090 FE 24GB – AMD Radeon RX 7900XTX 24GB – AMD Radeon RX 7900XT 20GB |
Fuente de Poder | – ASUS THOR II 1000W |
Almacenamiento | – Corsair MP600 PRO 1TB SSD M.2 PCIe 4.0 |
Monitor | – ASUS MG28UQ 4K |
- Sistema operativo Windows 10 Pro x64 [22H2].
- Las pruebas fueron realizadas en un ambiente con temperatura de 25ºC aproximadamente.
- La plataforma fue utilizada sin gabinete.
- Driver de Video utilizado: AMD Adrenalin Edition 22.40.00.57 Beta5, NVIDIA Game Ready v527.56
- Las resoluciones de las pruebas sintéticas son las predeterminadas por cada uno de los benchmarks.
- Configuraciones ultra o más alta para cada título de juego.
Pruebas Rasterizado.
Comencemos con las pruebas de fuerza bruta, el Rasterizado, donde los GPUs muestran su potencial de procesamiento duro.
La RTX 4090 de NVIDIA es un monstruo de tarjeta y lo demuestra inclusive en Rasterizado, de todas formas en solo 1 juego la RX 7900 XTX le da pelea en 4K, y en otros 2 inclusive obtiene mejores resultados.
Pruebas Ray Tracing.
Acá es donde se pone a prueba la mejora en términos de implementación de Raytracing de los núcleos RT de 3ra Generación.
Fuerza bruta en Raytracing nuevamente tenemos la RTX 4090 siendo la líder del grupo, seguido por la RX 7900 XTX, en algunas oportunidades se nota lo necesario del uso de tecnologías de ayuda como DLSS o FSR por parte de AMD.
Pruebas Ray Tracing + DLSS.
No podíamos dejar fuera DLSS y FSR, por lo que seteamos ambas tecnologías de ayuda al renderizado en modo Performance (Rendimiento), y volvimos a ejecutar las pruebas.
Nuevamente obtuvimos resultados que nos hicieron re-ejecutar las pruebas más de lo normal, ya que no podíamos explicar que estuviésemos obteniendo resultados válidos
Overclocking.
Para este modelo referencial hemos llevado sus valores a 2600MHz en Boost y 1362 MHz en las memorias, esto nos da un 2.5% más en el GPU y un 3.7% más en las memorias, valores aterrizados en relación a otros.
Veamos cuantos FPS se suman bajo estos nuevos valores.
Ya con los resultados en mano, vemos un incremento totalmente considerable, pese a ser un poco más de los valores de fabrica, el resultado logra entregar hasta 10 FPS más en 1080p y 13 FPS adicionales en 2160p, considerable. En los benchmark vemos 6.4% más en Unigine Superposition y en 3DMARK Fire Strike (general) entre un 7.5% a un 8.8%, un buen aumento. Podemos ver de inmediato que estamos frente a un monstruo de tarjeta de video.
Temperatura y Consumo.
A pesar de tener una fama de ser una tarjeta grande y que consume mucho, la verdad es que el sistema de refrigeración del modelo Founders Edition de NVIDIA es de gran calidad, y mantuvo la temperatura a raya, inclusive siendo mejor que otras tarjetas «menos potentes». Gran trabajo de NVIDIA.
En lo relativo al consumo, no hay mucho que decir, es la tarjeta que bajo full carga consume mas que todas, un peak de 430W se lleva la corona, seguida bien de cerca de la actual tope de línea de AMD con 399W. De esta forma, esos 430W no se ven tan mal, teniendo en cuenta el rendimieto que ofrece.
Ruido.
Con un par de ventiladores de grandes dimensiones formando parte de un sistema de refrigeración referencial, los niveles de ruido no son tan alto como acostumbraríamos de modelos así. Los máximos valores que podemos experimentar con este modelo son de 70dBA como peak, dados en el máximo de velocidad de estos ventiladores de forma manual, en sus valores automáticos se posiciona un poco menos de 50 dBA lo que se traduce en un ruido muy por debajo de la media de la plataforma en general, algo que suele ser opacado por los ventiladores del radiador de un sistema de refrigeración AIO.
Conclusión.
La generación de GPU Ada Lovelace de NVIDIA hizo un tremendo debut con esta tarjeta. Hoy les traemos nuestra revisión de la NVIDIA GeForce RTX 4090 Founders Edition.
A diferencia de Ampere, que vio el lanzamiento primero de la RTX 3080 y la RTX 3090 más tarde, NVIDIA está comenzó con la RTX 4090 esta vez. La nueva GeForce RTX 4090 se basa en el procesador de gráficos AD102, que es la primera GPU de 4 nanómetros del mundo, fabricada en TSMC Taiwán. En esta RTX 4090, NVIDIA ha habilitado 16384 núcleos de GPU (+88 % frente a la RTX 3080, y +52 % frente a RTX 3090 Ti); Esto por sí solo logrará un gran impulso en el rendimiento. NVIDIA no solo agregó «más», sino que también hizo que sus unidades fueran más inteligentes.
Si bien los núcleos CUDA realmente no han cambiado desde Ampere, la compañía aumentó significativamente la memoria caché L2, hasta 72 MB de 6 MB en la RTX 3090 Ti, un gran aumento. Los núcleos de trazado de rayos obtuvieron varias características de mejora del rendimiento, como el reordenamiento de la ejecución de sombreadores, las pruebas de opacidad y la generación de micro mallas (más sobre esto en la página Arquitectura de esta revisión).
Por último, pero ciertamente no menos importante, está DLSS 3 Frame Generation, que presenta una forma completamente nueva de aumentar el FPS. Con Frame Generation, la GPU generará automáticamente un cuadro adicional para cada cuadro renderizado, en función del movimiento en cada cuadro, duplicando los FPS en el proceso.
Donde la RTX 4090 puede flexionar su músculo es con el raytracing habilitado. Si bien anteriormente habilitar RT a 4K siempre significó algunos compromisos, ya sea una configuración mejorada o reducida, esta RTX 4090 FE le brindará 60 FPS con RT activo en casi todos los títulos. Al observar más de cerca nuestros puntos de referencia de raytracing, podemos ver que el impacto en el rendimiento al habilitar el RT es considerablemente más bajo que antes, gracias a las diversas mejoras tecnológicas. En comparación con AMD, el rendimiento del trazado de rayos es a menudo 3 veces más alto: AMD tiene que innovar aquí, a pesar que con NAVI31 mejoraron bastante.
NVIDIA está fijando el precio referencial de la GeForce RTX 4090 Founders Edition en $1600USD, algunos de los diseños personalizados de varios partners tratarán de igualar este precio, la mayoría no. De todas formas, la venta de estas tarjetas ha sido tal, que se encuentran agotadas en practicamente todos lados.