NVIDIA ha revelado el día de ayer su nuevo integrante de la familia RTX40, la RTX 4070 modelo que llena otro escalón más en la gama media, cambiando con esto el line up de producto que hoy el lado verde lleva el mercado de tarjetas de video. Por otro lado hoy es el turno de los modelos basado por los partners para este nuevo modelo de NVIDIA, y particularmente por nuestro lado y gracias a GIGABYTE podemos darles a conocer la nueva GIGABYTE RTX 4070 WINDFORCE OC 12G.
La serie WINDFORCE de GIGABYTE es una serie que provee a los usuarios una opción funcional, más allá de ir por características estéticas, esta serie busca entregar una alternativa para quienes buscan el potencial de GPU en todo su esplendor. La serie WINDFORCE en RTX 4070 cuenta con 3 ventiladores, un robusto sistema de disipación y una construcción a toda prueba. Pero veremos más adelante con detalle las características físicas de este modelo.
Arquitectura.
La arquitectura de gráficos de Ada anuncia la tercera generación de la tecnología NVIDIA RTX, un esfuerzo por aumentar el realismo en las imágenes de los juegos al aprovechar el trazado de rayos en tiempo real, sin la enorme cantidad de potencia informática necesaria para dibujar gráficos 3D con trazado de rayos puro. Esto se logra mediante la combinación de gráficos de trama convencionales con elementos de trazado de rayos, como reflejos, iluminación e iluminación global, por nombrar algunos.
La tercera generación de RTX anuncia el nuevo núcleo CUDA «Ada» de IPC más alto, el núcleo RT de tercera generación, el núcleo Tensor de cuarta generación y el nuevo procesador de flujo óptico, un componente que juega un papel clave en la generación de nuevos marcos sin involucrar los gráficos principales de la GPU. canalización de representación.
La arquitectura NVIDIA Ada es un gran salto en rendimiento. Se ha invertido mucho en convertirla en la arquitectura de GPU más rápida y avanzada del mundo jamás construida. La RTX 4070 Ti está fabricada en el proceso personalizado 4N de TSMC y contiene 35.800 millones de transistores y más de 7680 núcleos CUDA, la arquitectura NVIDIA Ada cuenta con un multiprocesador (SM) de transmisión mejorado, memoria GDDR6X súper rápida, núcleos Ray Tracing de tercera generación para un tazado de rayos mejorado.
Aceleración de hardware de seguimiento, Tensor Cores de cuarta generación para un mayor rendimiento de inferencia de IA, codificadores de octava generación compatibles con AV1 y mejoras de DLSS que permiten una alta velocidad de fotogramas, juegos de alta resolución en configuraciones ultra con trazado de rayos habilitado en el juego más reciente
La jerarquía de componentes esenciales es similar a las generaciones anteriores de GPU NVIDIA. El silicio AD104 presenta la increíble cantidad de 5 clústeres de procesamiento de gráficos (GPC), cada uno de ellos tiene toda la maquinaria de representación de gráficos y SIMD, y es una GPU pequeña por derecho propio. Cada GPC comparte un motor ráster (componentes de procesamiento de geometría) y dos particiones ROP (cada una con ocho unidades ROP).
El GPC del AD104 contiene seis clústeres de procesamiento de texturas (TPC), la principal maquinaria de procesamiento de números. Cada uno de estos tiene dos Streaming Multiprocessors (SM) y una unidad Polymorph. Cada SM contiene 128 núcleos CUDA en cuatro particiones. La mitad de estos núcleos CUDA son puros FP32; mientras que la otra mitad es capaz de FP32 o INT32.
El SM retiene la capacidad de procesamiento matemático FP32+INT32 concurrente. El SM también contiene un núcleo RT de tercera generación, cuatro núcleos Tensor de cuarta generación, algo de memoria caché y cuatro TMU. Hay 12 SM por GPC, por lo que 1536 núcleos CUDA, 48 núcleos Tensor y 12 núcleos RT; por GPC. Por lo tanto, 5 GPC suman 7680 núcleos CUDA, 240 núcleos Tensor y 60 núcleos RT. Cada GPC contribuye con 16 ROP, por lo que hay 80 ROP gigantes en el silicio. Un caché L2 de 48 MB sirve como plaza central para los diversos GPC, controladores de memoria y la interfaz de host PCIe, para intercambiar datos.
El núcleo RT de tercera generación acelera los aspectos más intensivos en matemáticas del trazado de rayos en tiempo real, incluido el recorrido BVH. El motor de micromalla desplazada es una función revolucionaria introducida con el nuevo núcleo RT de tercera generación, que acelera la función de micromalla desplazada. Así como los sombreadores de malla y el teselado han tenido un profundo impacto en la mejora del rendimiento con geometría ráster compleja, lo que permite a los desarrolladores de juegos aumentar significativamente la complejidad geométrica; Los DMM son un método para reducir la complejidad de la estructura de datos de la jerarquía de volumen límite (BVH), que se utiliza para determinar dónde un rayo golpea la geometría.
Anteriormente, el BVH tenía que capturar hasta los detalles más pequeños para determinar correctamente el punto de intersección. La arquitectura de trazado de rayos de Ada recibe una gran mejora en el rendimiento gracias a Shader Execution Reordering (SER), una característica definida por software que requiere el conocimiento de los motores de juego para ayudar a la GPU a reorganizar y optimizar los subprocesos de trabajo asociados con el trazado de rayos.
El BVH ahora no necesita tener datos para cada triángulo en un objeto, pero puede representar objetos con geometría compleja como una malla gruesa de triángulos base, lo que simplifica enormemente la estructura de datos de BVH. Un BVH más simple significa menos memoria consumida y ayuda a reducir en gran medida la carga de la CPU de trazado de rayos, porque la CPU solo tiene que generar una estructura más pequeña. Con los núcleos RT «Amperio» y «Turing» más antiguos, cada triángulo en un objeto tenía que ser muestreado a gran altura, por lo que el núcleo RT podía calcular con precisión la intersección del rayo para cada triángulo. Con Ada, el BVH más simple, además de los mapas de desplazamiento, se pueden enviar al núcleo RT, que ahora puede determinar el punto de impacto exacto por sí mismo. NVIDIA ha visto una compresión de 11: 1 a 28: 1 en el recuento total de triángulos. Esto reduce los tiempos de compilación de BVH en 7,6x a más de 15x, en comparación con el núcleo RT más antiguo; y reduciendo su huella de almacenamiento entre 6,5 y 20 veces. Los DMM podrían reducir la utilización del ancho de banda del disco y la memoria, la utilización del bus PCIe, así como también reducir la utilización de la CPU. NVIDIA trabajó con Simplygon y Adobe para agregar compatibilidad con DMM para sus cadenas de herramientas.
Opacity Micro Meshes (OMM) es una nueva característica introducida con Ada para mejorar el rendimiento de la rasterización, particularmente con objetos que tienen alfa (datos de transparencia). La mayoría de los objetos de baja prioridad en una escena 3D, como las hojas de un árbol, son esencialmente rectángulos con texturas en las hojas donde la transparencia (alfa) crea la forma de la hoja. Los núcleos RT tienen dificultades para cruzar los rayos con tales objetos, porque en realidad no tienen la forma que parecen (en realidad son solo rectángulos con texturas que le dan la ilusión de forma. Los núcleos RT de la generación anterior tenían que tener múltiples interacciones con la etapa de renderizado para descubrir la forma de un objeto transparente, porque no pudieron probar alfa por sí mismos.
Esto se ha resuelto mediante el uso de OMM. Así como los DMM simplifican la geometría al crear mallas de microtriángulos; Los OMM crean mallas de texturas rectangulares que se alinean con partes de la textura que no son alfa, por lo que el núcleo RT tiene una mejor comprensión de la geometría del objeto y puede calcular correctamente las intersecciones de los rayos. Esto también tiene un impacto significativo en el rendimiento del sombreado en aplicaciones que no son RT. Las aplicaciones prácticas de los OMM no son solo objetos de baja prioridad como la vegetación, sino también duendes de humo y niebla localizada.
Tradicionalmente, había mucho sobredibujado para tales efectos, porque superponían múltiples texturas una encima de la otra, que los sombreadores tenían que procesar por completo. Ahora solo se ejecutan los píxeles no opacos: los OMM proporcionan un 30 % de aceleración con las tasas de llenado del búfer de gráficos y un 10 % de impacto en las tasas de fotogramas.
DLSS 3 presenta una nueva característica revolucionaria que promete duplicar la velocidad de cuadros con una calidad comparable, se llama generación de cuadros AI. Si bien tiene todas las funciones de DLSS 2 y su superresolución de IA (ampliación de un cuadro de menor resolución a resolución nativa con una pérdida de calidad mínima); DLSS 3 puede generar cuadros completos simplemente usando IA, sin involucrar la canalización de representación de gráficos.
Por lo tanto, cada cuadro alterno con DLSS 3 es generado por IA, sin ser una réplica del cuadro renderizado anterior. Esto solo es posible en la arquitectura de gráficos Ada, debido a un componente de hardware llamado acelerador de flujo óptico (OFA), que ayuda a predecir cómo podría verse el próximo cuadro, creando lo que NVIDIA llama un campo de flujo óptico.
OFA garantiza que el algoritmo DLSS 3 no se confunda con objetos estáticos en una escena 3D que cambia rápidamente (como un simulador de carrera). El proceso depende en gran medida de la mejora del rendimiento introducida por el formato matemático FP8 del núcleo Tensor de cuarta generación. Un tercer ingrediente clave de DLSS 3 es Reflex. Al reducir la cola de renderizado a cero, Reflex juega un papel vital para garantizar que los tiempos de cuadro con DLSS 3 estén en un nivel aceptable, y que la cola de renderizado no confunda al escalador. Una combinación de OFA y el núcleo Tensor de 4.ª generación es la razón por la que se requiere la arquitectura Ada para usar DLSS 3 y por la que no funcionará en arquitecturas más antiguas.
Los usos para este nuevo modelo de NVIDIA siguen siendo bien completos, gracias a la nueva arquitectura, la RTX 4070 estaría entregando grandes mejoras en diversos ambitos con respecto a la RTX 3070Ti, quien este ultimo sería el modelo a reemplazar.
Con este nuevo integrante la familia RTX 40 llegaría hasta la RTX 4070 como el modelo base de esta nueva arquitectura, conviviendo de momento con algunos modelos de la serie RTX 30. Claramente este lineamiento es para establecer como quedaría a nivel precio, sin embargo durante el año es probable que ya tengamos una serie RTX 30 descontinuada dando paso a modelos de media gama con RTX 40.
Especificaciones.
Especificaciones | NVIDIA RTX 4070Ti | AMD Radeon RX 7900XT | AMD Radeon RX 6900 XT | GIGABYTE RTX 4070 WINDFORCE OC 12G | NVIDIA RTX 4070 | AMD Radeon RX 6800 XT | NVIDIA RTX 3080 |
---|---|---|---|---|---|---|---|
Proceso de Fabricación | 4 nm | 5 nm | 7 nm | 5 nm | 5 nm | 7 nm | 8 nm |
GPU | AD104-400-A1 | Navi 31 XT | Navi 21 XTX | AD104-250-A1 | AD104-250-A1 | Navi 21 XT | GA102-200 |
Shaders | 7680 | 5376 | 5120 | 5888 | 5888 | 4608 | 8704 |
ROPs | 80 | 192 | 128 | 64 | 64 | 128 | 96 |
Texture Units | 240 | 336 | 320 | 184 | 184 | 288 | 272 |
Tensor Cores | 240 | - | - | 184 | 184 | - | 272 |
RT Cores / Ray Accelerators | 60 | 84 | 80 | 46 | 46 | 72 | 68 |
Core Clock | 2310 MHz | 1500 MHz | 1825 MHz | 1920 MHz | 1920 MHz | 1825 MHz | 1440 MHz |
Boost Clock | 2610 MHz | 2394 MHz | 2250 MHz | 2490 MHz | 2475 MHz | 2250 MHz | 1710 MHz |
Frecuencia de Memoria | 1313 MHz | 2500 MHz | 2000 MHz | 1313 MHz | 1313 MHz | 2000 MHz | 1188 MHz |
Memoria | 12 GB, GDDR6X, 192 bit | 20 GB, GDDR6, 320 bit | 16 GB, GDDR6, 256-bit | 12 GB, GDDR6X, 192 bit | 12 GB, GDDR6X, 192 bit | 16 GB, GDDR6, 256 bit | 10 GB, GDDR6X, 320-bit |
Conectores | 1x 16-pin | 2x 8-pin | 2x 8 pin | 1x 8-pin | 1x 16-pin | 2x 8-pin | 1x 12 pin |
TDP | 285 W | 315 W | 300W | 200 W | 200 W | 300 W | 320W |
Precio | $799 MSRP | $899 MSRP | $ 999 MSRP | $599 | $649 MSRP | $ 699 MSRP |
Primera Mirada.
NVIDIA RTX 4070 en su versión WINDFORCE OC de GIGABYTE.
GIGABYTE probee a su serie WINFORCE
Bajo el empaque externo encontramos la tarjeta envuelta y muy bien acolchada. En este punto tan solo encontramos un manual de usuario.
La tarjeta cuenta con 3 ventiladores de 80mm en un armazón de plástico oscuro, no muestra LEDs
En una vista posterior la tarjeta de video cuenta con un back plate que cubre todo el PCB, el cual también muestra como el PCB se distribuye en 2/3 del largo de la tarjeta, mientras que el resto es solo disipador. En el exceso de disipación vemos una abertura para mejorar la salida del aire residual.
A diferencia de los otros modelos de la serie RTX 40, la RTX 4070 contaría con un conector de 8 pines.
En las salidas de video nos encontramos con 3x Display Port y 1x HDMI
Bajo el sistema de refrigeración encontramos un PCB que toma los 2/3 de la tarjeta en general. Se pueden ver vestigios con 2 espacios de memoria adicionales, un PCB ocupado en algún modelo que apuntaría a 16GB.
Las memorias GDDR6X se encuentran distribuidas en 6 chips de 2GB cada una para entregar los 12GB totales, estas están fabricadas por Micron modelo 3CU47 D8BZC.
Por posterior del PCB, vemos que no cuenta con pads térmicos para potenciar la disipación con el backplate. Debido a un tamaño reducido del PCB vemos que en esta cara cuenta con una amplia población de elementos eléctricos, por lo que se el backplate que trae consigo es de gran importancia.
El sistema de refrigeración utilizado por GIGABYTE cuenta con 3 heatpipe de cobre en contacto directo con el GPU presentes de extremo a extremo del disipador. Las memorias son refrigeradas por el mismo bloque de aluminio que contacta con los heatpipe. Los VRMs y fases de poder posee un bloque de aluminio independiente.
Plataforma de Pruebas y Metodología.
Plataforma de Pruebas | |
---|---|
Procesador | - AMD Ryzen 9 7950X |
Placa Madre | - ASUS ROG CROSSHAIR X670E HERO |
Memoria | - Corsair Dominator Platinum RGB 6000 2x16GB EXPO |
Refrigeración | - Thermaltake Water 3.0 Riing RGB 360 |
Tarjeta de Video | - GIGABYTE RTX 4070 WINDFORCE OC 12G |
Fuente de Poder | - ASUS ROG THOR II 1000W |
Almacenamiento | - Corsair MP600 PRO 1TB M.2 PCIe 4.0 |
Monitor | - ASUS MG28UQ |
- Sistema operativo Windows 10 Pro x64 [22H2].
- Las pruebas fueron realizadas en un ambiente con temperatura de 25ºC aproximadamente.
- La plataforma fue utilizada sin gabinete.
- Driver de Video utilizado: GeForce 531.42 Beta
- Las resoluciones de las pruebas sintéticas son las predeterminadas por cada uno de los benchmarks.
- Prueba de ruido a 10cm de la tarjeta de video.
Pruebas Rasterizado.
Pruebas Ray Tracing.
Pruebas Reescalado (DLSS/FSR – Alto Rendimiento).
Overclocking.
Con una sistema de refrigeración robusto y junto a una arquitectura que da mensajes muy convincentes sobre eficiencia, es necesario ver de que está hecha y puesta a prueba bajo overclocking con algunos benchmarks y prueba real.
Por sobre los valores de OC que trae GIGABYTE en esta versión, y luego de revisar que la nueva configuración de frecuencia sea estable, hemos llevado al GPU a 2120 MHz con un Boost de 2690MHz, las memorias por su lado a 1438MHz esto sería GPU +10%, Boost +8% y memorias +9,5%. Como resultado a nivel de ancho de banda estaríamos llevando las memorias a 552,2 GB/s, y por el lado de Pixel y Texturas a 172.2 GPixel/s y 495 GTexel/s respectivamente.
Veamos los resultados de este extra de frecuencia.
Con el adicional de rendimiento la NVIDIA RTX 4070 logra agregar un impulso suficiente para apegarse a la Radeon RX 6800XT en rasterizado, superando tranquilamente a la Radeon RX 6800, rasterizado es uno de los escenarios donde Radeon suele destacar, aunque se logra ver para altas resoluciones la NVIDIA RTX 4070 podría desarrollar un rendimiento más llamativo con más memoria.
Consumo y Temperatura.
A medida que vamos bajando en las nuevas generaciones de GPU, vemos como la eficiencia se hace notar, a nivel de la RTX 4070 podemos experimentar una carga máxima de 188W en carga, esto debemos considerar que trae un leve OC de fabrica, y 195W con overclocking adicional por sobre lo de fabrica. Es prácticamente la mitad del consumo de una RTX 4090.
Uno de los valores más importantes que provee la serie WINDFORCE es la refrigeración, la cual sumado a las características del GPU RTX 4070, podemos ver resultados de temperatura bien bajos. Con tan solo 64°C inclusive con overclocking, vemos un sistema de disipación muy eficiente. Durante esta máxima carga se logro ver una velocidad de los ventiladores de 68% de su máximo. Sin carga el los ventiladores quedan totalmente apagados.
Ruido.
Al tratar con una serie de ventiladores en tarjetas de video podría dar origen a anomalías dentro del sistema de refrigeración, cada uno de estos empujando un determinado flujo de aire ocasionaría normalmente cambios de presión que terminaría en aumentos de ruido adicionales al que genera el motor del mismo ventilador, es aquí donde la eficiencia se pone en juego al tratar de mantener este conjunto bajo niveles bajos. Para determinar esto hemos puesto un medidor de decibeles a 10 cm de la tarjeta, esto para no asociarlo a ruidos de otros componentes y determinar con esto el nivel que posee.
Este modelo demostró poseer un nivel de ruido muy bajo, desarrollando tan solo 45 dBA en máxima carga y con velocidad de ventiladores en automático (68% de su máximo), un nivel muy bajo que es inaudible si este se encuentra dentro de un gabinete y dentro del ruido del resto de los componentes como ventiladores de un AIO o ventiladores del mismo gabinete, incluso cuando es puesto al 100% de su velocidad, en un modo donde el ruido sería el más alto, apenas se logra llegar a los 66 dBA como peak en algunos instantes.
Conclusión.
Con respecto a otros lanzamientos de esta serie de NVIDIA, las diferencias de rendimiento en comparación con sus antecesores eran mayores, con este modelo de NVIDIA que por nomenclatura sería un modelo a reemplazar la RTX 3070, llega al rendimiento de una RTX 3080 o bien una Radeon RX 6800XT de AMD, no parece ser muy grande el salto, ahora si aplicamos la ultima generación de DLSS el escenario es muy diferente y es que logra llegar sin problema a un rendimiento de una RX 6900XT inclusive.
A nivel de refrigeración, GIGABYTE nos ha dado una opción muy atractiva con niveles temperatura muy bajos, el sistema de refrigeración que se logró ver es muy robusto y logra extraer muy bien la temperatura generada por el GPU y enviarla al resto del disipador. Como la tarjeta en sí posee un tamaño reducido, es de considerar que la temperatura se concentraría en una zona más acotada, esto también ayuda a que el GPU como tal no sea un modelo que logre un gran nivel de consumo, sin embargo por ese tamaño reducido en la tarjeta podría supone que acumule temperatura, pero se ve que el sistema de refrigeración es eficiente para mantener la tarjeta de video fresca sin superar incluso en carga y overclocking los 65°C.
Otro punto fuerte que ha demostrado NVIDIA con este modelo es entorno a la eficiencia, el modelo ha logrado demostrar un rendimiento muy similar a una Radeon RX 6800XT y en algunos casos muy cerca a una Radeon RX 6900XT, consumiendo prácticamente 100W menos que estos modelos de AMD, señala un buen trabajo de arquitectura de parte de NVIDIA en este nodo de 5nm.
El tamaño de memoria de 12GB podría ser cuestionada, con competidores que ofrecen 16GB como la contraparte de AMD, para este modelo tan solo se ha dotado de 12GB al igual que la versión Ti, si bien es una mejora con respecto a sus antecesores con 8GB para la RTX 3070 y 10GB para la RTX 3080, al apuntar a resoluciones 2160p con esa cantidad de memoria no deja mucha diferencia con modelos como RX 6800XT o RX 6800, se puede ver que con más memoria podría beneficiaria positivamente para rivalizar en mejor forma ante estos modelos.
Luego de los resultados podemos ver que este nuevo modelo de NVIDIA es una excelente opción para contenido en 1440p, el rendimiento en esta resolución es capaz de entregar FPS suficientes para disfrutar cualquier titulo en sus máximos gráficos. Como mencionábamos anteriormente, para ir más allá en resolución la memoria se ve necesaria, sin embargo es posible ir a 2160p con ayuda de reescalado, un punto a favor es que con DLSS 3, el cual hace un gran trabajo para entregar una experiencia completa en esta resolución.
GIGABYTE nos ha mencionado que el precio para el mercado local de esta tarjeta estaría rondando los $780.000 CLP, esto muy por sobre a los $599 como precio de lanzamiento de parte de NVIDIA aunque entendemos que es un modelo personalizado, y considerando algunos costos logísticos, la diferencia de precio sigue siendo cuestionable, igualmente es un precio que la posiciona junto con las RTX 3070 Ti en este momento y con la Radeon RX 6800XT esto dentro del mercado chileno. Esperemos a ver cual será la realidad de este modelo una vez las tengamos acá.