NVIDIA finalmente anuncia la gama alta de su nueva generación de tarjetas gráficas basadas en la nueva arquitectura “Maxwell” de segunda generación, la arquitectura más eficiente de NVIDIA en los últimos años. La GeForce GTX 980 y GeForce GTX 970 son los primeros exponentes de una familia de productos basados en el núcleo GM204, el cual analizamos en profundidad en este artículo técnico.
Introducción.
En enero de este año NVIDIA sorprendió lanzando sus primeros productos basados en su nueva arquitectura Maxwell de primera generación con la GeForce GTX 750 Ti y GeForce GTX 750, apuntados al mercado de rendimiento medio, los cuales mostraron una alta eficiencia y un gran rendimiento dentro del segmento al cual apuntaban según los respectivos reviews y como describimos en el respectivo análisis de las princiapales características y mejoras de la arquitectura.
Estas tarjetas basadas en el núcleo GM107 (el primer núcleo basado en Maxwell) dieron el primer indicio respecto a lo que estaba preparando NVIDIA: Una arquitectura altamente eficiente en consumo y también altamente potente para las demandas actuales en el mercado de los videojuegos, resoluciones 4K (Ultra HD), cómputo de alto rendimiento, multi-pantallas etc.
28nm HP (High Performance).
Cuando se confirmó que NVIDIA no haría el paso a los 20nm en esta generación de tarjetas gráficas basadas en Maxwell, muchos se desilusionaron y se preguntaron cómo lo haría NVIDIA para reducir aún más el consumo de energía de una nueva generación de tarjetas; considerando que se mantendría con un -ya longevo- proceso de manufactura de 28nm (TSMC), el cual ha sido exprimido en cada uno de los numerosos modelos basados en Kepler (GeForce GTX 600 y 700 series) y varios sencillamente no concebían una nueva generación de tarjetas de gama alta (High End) basadas en un proceso de manufactura de 28nm que pudiera aportar algo nuevo o rendimiento extra.
Pese bien, los 20nm aun no están listos para el mercado gráfico de alto rendimiento, por lo tanto, NVIDIA ha tenido que hacer un trabajo fino de ingeniería y reingeniería para poder sacar aun más rendimiento a transistores de 28nm y al mismo tiempo generar un menor consumo que su familia actual de tarjetas y que además la desmarque con gran diferencia respecto a su rival en el mercado: AMD y sus gráficas Radeon R9 290 series, que a pesar de su alto rendimiento tienen su talón de Aquiles en el consumo de energía, bordeando los 300W de TDP.
El resultado de este trabajo es el nucleo GM204, el primero basado en la arquitectura Maxwell de segunda generación y fabricado con tecnología de 28nm.
Núcleo «GM204»: Maxwell de Segunda Generación
El nuevo y flamante núcleo GM204 es una obra de ingeniería altamente eficiente que ha logrado desarrollar NVIDIA, una eficiencia que no veíamos en años en la empresa de Santa Clara, tomando en cuenta que es un núcleo apuntado para el segmento de alto rendimiento, así como lo es el núcleo GM107 para el segmento de rendimiento medio.
El GM204, es el primer núcleo de alto rendimiento basado en la arquitectura Maxwell de segunda generación y que potencia las nuevas tarjetas gráficas GeForce GTX 980 y GeForce GTX 970 y futuros modelos, como la rumoreada GeForce GTX 960 o una hipotética GeForce GTX 970 Ti. Este núcleo fabricado con tecnología de 28nm posee un total de 5.200 millones de transistores, comparado con los 3.540 millones de transistores del GK104 y los 7.080 millones de transistores del núcleo GK110.
Lo anterior hace que el GM204 tenga un área de aproximadamente 398mm2 comparado con los 294mm2 y 581mm2 del GK104 y GK110 respectivamente, pero tengamos en cuenta que el GM204 es el núcleo espiritualmente sucesor del GK104 (GTX 680), aunque -por ahora- toma el lugar del GK110, hasta que NVIDIA decida o no lanzar un hipotético GM210.
El núcleo GM204 tiene dos variantes, el GM204-400-A1 que potencia a la GeForce GTX 980 y el GM204-200-A1 que potencia la GeForce GTX 970.
Arquitectura “Maxwell” de Segunda Generación.
Antes de continuar y si no están familiarizados con las arquitecturas de NVIDIA en las últimas generaciones, recomendamos leer los apartados técnicos de las arquitecturas Fermi, Kepler y Maxwell de primera generación para familiarizarse con los términos técnicos que utilizaremos a continuación.
La arquitectura del GM204 es similar en términos estructurales a la del GM107, salvo que agrega un mayor número de componentes. El núcleo GM204-400 que potencia la GeForce GTX 980 se configura de 4 GPC (Graphics Processing Clusters), cada uno con 4 bloques SMM y cuatro controladores de memoria de 64-bit (256-bit en total). Cada controlador de memoria está acompañado de 16 ROPs y 512 KB de memoria cache L2, en total 64 ROPS y 2048 KB de cache L2 (esto comparado con los 32 ROPs y 512 KB en total en el núcleo GK104).
Estos bloques SMM (Streaming Multiprocessors Maxwell) albergan 4 lógicas de control (Control Logic) que son particiones de 32 núcleos, es decir, cada SMM posee un total 128 núcleos o CUDA Cores.
Hasta aquí la configuración es igual a la del núcleo GM107. La diferencia está en el número de SMM y GPC, ya que mientras el GM107-400 posee en total 5 Streaming Multiprocessors (SMM) con 128 núcleos en un solo GPC, para un total de 640 CUDA Cores (GTX 750 Ti), el GM204-400 por su parte incorpora 16 Smm (Streaming Multiprocessors Maxwell) organizados en 4 GPC; y tomando en cuenta que cada SMM posee en total 128 núcleos (divididos en 4 particiones o Control Logic de 32 núcleos), es cosa de multiplicar para obtener los 2048 CUDA Cores de la GeForce GTX 680.
En el caso de la GeForce GTX 970, es algo similar, sólo que esta tarjeta potenciada por el núcleo GM204-200 posee sólo 13 SMM (Streaming Multiprocessors Maxwell), así que brinda un total de 1664 CUDA Cores. Esto deja un margen de 384 CUDA Cores entre la GeForce GTX 970 y GeForce GTX 980 para futuros lanzamientos, como una hipotética GeForce GTX 970 Ti u otro modelo que NVIDIA decida acomodar en este espacio que ha dejado entre ambos modelos.
13 SMM x 128 Núcleos (32 x 4 CL) = 1664 CUDA Cores (GeForce GTX 970)
14 SMM x 128 Núcleos (32 x 4 CL) = 1792 CUDA Cores (GeForce GTX ???)
15 SMM x 128 Núcleos (32 x 4 CL) = 1920 CUDA Cores (GeForce GTX ???)
16 SMM x 128 Núcleos (32 x 4 CL) = 2048 CUDA Cores (GeForce GTX 980)
De hecho la propia NVIDIA lo indica en sus documentos confidenciales a los cuales tuvimos acceso:
“In the future we plan to offer additional products based on GM204 that will ship with different combinations of GPCs, SMs, and memory controllers to address various segments of the graphics market”
Maxwell Streaming Multiprocessor.
Como lo indica NVIDIA, los SM son el corazón o los corazones de la GPU, ya que casi todas las operaciones de cómputo, cálculo, transacciones, flujo de datos, etc, pasan por los Streaming Multiprocessors. Con Maxwell, NVIDIA ha rediseñado los SM para proporcionar una mejora dramática de rendimiento por watts que las generaciones previas de GPU, haciendo de las GPUs basadas en Maxwell una de las más eficientes en consumo versus rendimiento en la historia de lanzamientos de NVIDIA.
Comparado con las GPU basadas en la arquitectura Kepler, podemos indicar que Maxwell y el nuevo diseño de los SMM han sido reconfigurados para mejorar la eficiencia. Así, cada SMM contiene cuatro “Warp Schedulers”, cada uno de ellos es capaz de enviar o despachar 2 instrucciones por warp en cada ciclo de reloj. Comparado con Kepler, Maxwell integra una serie de mejoras en el Scheduler (programador) para reducir aspectos redundantes en términos del re-computo de datos en las decisiones del programador, mejorando con esto la eficiencia.
Ahora, bien tal como explicamos en el artículo sobre Maxwell de primera generación, cada SMM se ha sido dividido o particionado en cuatro bloques, cada uno de estos con su respectiva lógica de control o “Control Logic” con recursos dedicados como: Intruction Buffer, Warp Scheluder, Dispatch Unit, Register etc. Esto en comparación con Kepler por ejemplo, donde cada SMX se dividía en 2 bloques de 96 CUDA Cores (192 CUDA Cores en total), pero eran administrados por una sola lógica de control o control logic que compartía recursos para Scheduling y buffer de instrucciones.
En el siguiente diagrama (gentileza de Anandtech) se pueden ver con más precisión la organización de recursos de cada SMM de Maxwell, versus la organización de los recursos de Kepler, como vemos la unidad Crossbar ahora es dedicada para cada uno de los 4 bloques de 32 núcleos que componen cada SMX, en comparación con los SMX de Kepler donde una sola unidad Crossbar era compartida para los 192 núcleos de cada SMX. Logrando con esto una mejor eficiencia en el procesamiento y despacho de datos.
Otro de los aspectos que ha mejorado NVIDIA en Maxwell es la jerarquía de memoria (memory hierarchy), en lugar de implementar por ejemplo memoria compartida con el bloque de memoria cache L1 como los SMX de Kepler, los SMM de Maxwell poseen memoria cache dedicada de 96Kb, mientras que las funciones del cache L1 han sido movidas para ser compartidas con las funciones de cache de texturas. Esto trae como resultado que cada núcleo CUDA de Maxwell entregue cerca de 1.4 veces más rendimiento por núcleo comparado con los núcleos CUDA de Kepler, además de 2 veces mejor rendimiento por Watt.
PolyMorph Engine 3.0
Cuando NVIDIA lanzo su arquitectura Fermi, integró en su arquitectura este bloque llamado PolyMorph Engine que se compone de varios elementos críticos como: Vertex Fetch, Tessellation, Viewport Transform, Attribute Setup y Stream Output, el cual apuntaba principalmente a potenciar y administrar de manera más eficientes los cálculos geométricos de la GPU, y poder procesar nuevas técnicas como el teselado y otros aspectos relativos a DirectX 11.
Con Fermi debutó el PolyMorph Engine 1.0, el cual fue posteriormente mejorado con el PolyMorph Engine 2.0 de Kepler, este ultimo entregando un rendimiento de hasta 2 veces en técnicas de teselado respecto a Fermi. NVIDIA nuevamente vuelve a potenciar este bloque introduciendo con Maxwell el nuevo PolyMorph Engine 3.0 el cual en lo general mantiene el diseño de los motores geométricos anteriores PME 1.0 (Fermi) y PME 2.0 (Kepler), pero al mismo tiempo vuelve a doblar el rendimiento respecto a su antecesor, especialmente enfocado en mejorar el rendimiento en el teselado con la próxima generación de videojuegos que hagan uso intenso de las técnicas de teselado.
De esta forma con más unidades SM en el núcleo GM204, la GeForce GTX 980 también se beneficia de este rendimiento extra respecto a la GTX 680, su antecesora espiritual, como resultado el rendimiento en pesadas cargas de trabajo geométrico se incrementa al doble, debido a las mejoras en la arquitectura dentro del motor PolyMorph Engine 3.0.
Lamentablemente NVIDIA no ha proporcionado datos más profundos respecto a los cambios en la arquitectura de este importante motor, pero podemos deducir que en total tenemos 16 PolyMorph Engine 3.0 (uno por cada SMM), por lo tanto, son 16 unidades especiales de teselado en general para el núcleo GM204 de la GeForce GTX 980, comparado con las 8 unidades PolyMorph Engine 2.0 de Kepler (Full Block).
Delta Color Compression de 3° Generación
Una de las técnicas que se utilizan para reducir el consumo de ancho de banda del sistema de memorias y a la vez reducir el consumo es la compresión de datos que van hacia el subsistema de memorias. Con el núcleo GM204 cada partición ROP contiene 16 unidades ROP (comparado con las 8 unidades ROP por partición de Kepler), cada ROP puede procesar a la vez una sola muestra de color. Con cuatro particiones ROP, el GM204 posee en total 64 ROPs, el doble que su predecesor, tal como lo vimos en el apartado de estas unidades.
Pero más allá de esto, que es importante mencionar, NVIDIA ha hecho significativas mejoras en las técnicas de compresión de memoria. Así para reducir la demanda de ancho de banda del sistema de memorias, Maxwell hace uso de técnicas de compresión sin perdida, como los datos que se escriben en la memoria. La compresión que implementa NVIDIA posee un motor con multiples capas de algoritmos de compresión, así cada bloque de datos que va a la memoria, será primero examinado para ver si cada región de pixeles dentro de un bloque de datos es constante, para de esta forma comprimir los datos en virtud de ese patrón.
Para ayudar en el proceso de compresión de datos que van a la memoria, NVIDIA introduce con Maxwell la tercera generación de su técnica “Delta Color Compression”, que debutara en Fermi y luego en Kepler. En este modo, ahora más eficiente, se calcula la diferencia entre cada píxel en el bloque y su píxel vecino, y luego se intenta empacar estos valores diferentes entre sí utilizando el número mínimo de bits. Por ejemplo, si un píxel “A” de color rojo su valor es 253 (8-bits) y el valor del pixel rojo “B” es de 253 (8 bits) la diferencia (delta) es 3, que se puede representar en sólo 2 bits.
En el caso contrario de bloques de colores que no puedan ser comprimidos en alguno de estos modos, la GPU enviará los datos sin comprimir a la memoria. La efectividad de la técnica delta color compression depende en lo específico de que orden de píxeles es seleccionado para los cálculos de color delta, en este sentido Maxwell integra un motor de tercera generación que mejora la efectividad, ofreciendo más opciones de cálculos al compresor y por ende más posibilidades de compresión de datos respecto a Kepler.
Finalmente, gracias a mejoras en el guardado de datos en el cache (Caching) y la compresión en Maxwell, la GPU puede reducir significativamente el número de bytes que deben ser traídos desde la memoria a ser representados en cada cuadro por segundo. Según pruebas internas de NVIDIA con una variedad de juegos, Maxwell utiliza cerca de un 25% menos de byte por cuadro comparado con Kepler. Esto sin lugar a dudas mejora el rendimiento y también ayuda a una mejor eficiencia en el consumo de ancho de banda y en el consumo de energía requerido por un sistema de memorias saturado de datos sin comprimir.
Rendimiento Geométrico GM204: ROPs, TMU.
Otras de las mejoras hechas por NVIDIA en su arquitectura Maxwell son las unidades ROPS y TMU, unidades que realizan el trabajo geométrico de alta demanda del chip. El GM204 posee en total 128 TMU (Texture Mapping Units) y 64 ROPs (Raster Operation Units). Esto comparado con los 48 ROPS / 240 TMU del núcleo GK110 y los 16 ROPS / 40 TMU del núcleo Maxwell de primera generación GM107.
La distribución de las unidades de textura o TMU es la siguiente: 8 unidades de textura por cada SMM del GM204, de esta forma, en el caso de la GeForce GTX 980, cada uno de sus 16 bloques SMM posee 4 unidades de textura asociadas, es decir, en total 128 TMU (16 x 8). En el caso de la GeForce GTX 970 tenemos 13 SMM x 8 TMU = 104 TMU. NVIDIA indica que esta es la configuración ideal para cada uno de los SMM del núcleo GM204
GK110 = 48 ROPS / 240 TMU
GM107 = 16 ROPS / 40 TMU
GM204 = 64 ROPS / 128 TMU
Estas mejoras le dan al GM204, una mayor potencia geométrica con una tasa de relleno de texturas (Textura fill rate) de 144 GT/s, más bajo que el GK110 que ofrece cerca de 210 GigaTexeles/s (GT/s) gracias a sus 240 TMU, sin embargo, la tasa de relleno de pixeles (Pixel Fillrate) es más alta con 72.1 GigaPixeles/s (GP/S), comparado con los 53.3 GP/s de la GTX 780 Ti, gracias a un mayor número de ROPs (64 vs 48).
Estas mejoras en el apartado geométrico le permiten a las nuevas tarjetas poder sostener mayores y nuevo niveles de alisado (AA) en altas resoluciones.
Cache L2 de 2MB.
El GM204 también ha reducido su dependencia de ancho de banda, para esto y tal como en el núcleo Maxwell GM107 de primera generación, la memoria cache L2 se ha incrementado a 2MB, esto es 512 KB más que el núcleo GK110 y muy superior a los 256 KB de cache L2 del núcleo GK104. El reducir la dependencia del ancho de banda del sub-sistema de memorias también es un factor que ayuda a reducir el consumo de energía de la tarjeta.
Según NVIDIA con más memoria cache L2 en el chip, se requieren menos peticiones de acceso a la memoria gráfica de la tarjeta, como ya citamos se reduce el consumo promedio de energía, mejora el rendimiento y demanda menos ancho de banda, lo que va en pro del rendimiento para priorizar cargas más demandantes
Adicionalmente los ingenieros de NVIDIA han hecho cambios más finos a nivel de transistores, para maximizar le eficiencia energética que como resultado implica que Maxwell entregue hasta 2 veces el rendimiento/watt que entrega Kepler y usando el mismo proceso de manufactura de 28nm.
NVIDIA GM204, una GPU de sólo 165W.
Ya le hablamos de entrada que la eficiencia energética de la mano del alto rendimiento son los dos principales beneficios prácticos que trae la nueva generación de tarjetas gráficas de NVIDIA. En el pasado han quedado chips como Fermi que a pesar de su rendimiento, tenían una alta tasa de consumo de energía. Con Kepler el asunto no cambio mucho, aunque mejoraron respecto Fermi, pero sin duda Maxwell era la arquitectura que venía a romper los esquemas que hasta ahora se habían implementado en la generación actual de chips gráficos de alto rendimiento de NVIDIA.
De esta forma, gracias a los cambios internos hechos por NVIDIA, el GM204 operando con todas sus unidades activas (2048 núcleos), tiene un TDP de sólo 165W (GeForce GTX 980) y de 145W (GeForce GTX 970), una reducción realmente notable que no veíamos hace años en una tarjeta de alto rendimiento y que me atrevo a decir, uno de los chips más altamente eficientes en la historia de lanzamientos que recuerdo de NVIDIA.
Estas cifras (165W y 175W) están por lo demás muy alejadas de los 250W de las GeForce GTX 780 Ti y GeForce GTX 780, o de los 220W de la GeForce GTX 770, o los 192W de la GeForce GTX 680, entregando un rendimiento muy superior desde la penúltima generación hacia atrás. Para que mencionar los 244W de la GeForce GTX 580 (Fermi) o los 250W de la GeForce GTX 480 (Fermi).
Con esto, nadie echará de menos de momento un nodo de fabricación a 20nm, aunque al mismo tiempo las expectativas serán realmente altas para cuando NVIDIA haga el paso a los 20nm, posiblemente con sus futuras generaciones de tarjetas gráficas basadas en Volta.
TSMC el principal socio manufacturero de NVIDIA ya aviso que no ofrecerán nodos de 20nm este año y que todo queda para una fecha posterior.
Configuración eléctrica GeForce GTX 980 y GeForce GTX 970
La GeForce GTX 980 posee una fase de alimentación VRM por defecto de 5 etapas, pero un su fase de alimentación se puede apreciar que hay conectores para agregar incluso 2 fases adicionales, esto pensando en los socios de NVIDIA como MSI o ASUS que podrían lanzar modelos más potentes con un mayor rendimiento gracias a OC y donde se requiera de estas fases adicionales de energía.
En su modelo de referencia, la GeForce GTX 980 se alimenta de 2 conectores de energía PCI-Express, más el suministro proporcionado por el conector PCI Express 3.0, pero en el PCB de la tarjeta se incorporan 2 conectores adicionales al costado de uno de los conectores PCI-E de 6 pines, por lo tanto, tal como las fases de energía, algún fabricante podría incorporar una configuración de alimentación auxiliar de 6 + 8 Pines.
clic para ampliar
Como vemos la tarjeta tiene aun más potencial eléctrico de lo que viene por referencia y ASUS y MSI, Gigabyte, entre otros podrían utilizar esto para lanzar modelos con OverClock más potentes que los modelos de referencia.
Poder de Cómputo: El núcleo GM204 posee un poder de cómputo en precisión simple de cerca de 4.6 TFLOPS, que lo ubica realmente cerca de los 5.1 TFLOPS del núcleo GK110, aunque con mucho menos núcleos (2048 vs 2880), lo que nos indica del mejorado rendimiento por ciclo de reloj de la arquitectura Maxwell del núcleo GM204, que puede entregar un mayor rendimiento por núcleo que Kepler.
Salidas de video y nuevo motor de video
Maxwell está enfocado en brindar un mejor soporte multi-pantallas, altas resoluciones y decodificación de video. En este sentido todas las GPU basadas en Maxwell integran un motor de pantallas capaz de soportar resoluciones Full-HD, 4K y 5K, en este contexto una GPU basada en Maxwell puede administrar hasta 4 pantallas en resolución 4K (MST), esto comparado con las 2 pantallas 4K MTS que pueden administrar las GPUs tope basadas en Kepler.
La GeForce GTX 980, es la primera GPU del Mercado en soportar el estándar HDMI 2.0, comparado con la generación previa de productos que solo soportan HDMI 1.4. Esta tarjeta viene por defecto con tres salidas DisplayPort 1.2, una salida HDMI 2.0 y una salida dual-link DVI. Con esto hasta 4 pantallas simultaneas se pueden manejar con una tarjeta, las cuales pueden incrementarse en una configuración multi-GPU para multi-pantallas, como un arreglo 3D Sorround por ejemplo. Tambien la tarjeta soporta hasta 3 monitores G-sync mediante sus tres salidas DisplayPort.
Respecto al motor de video incorporado en las GPU Maxwell, tenemos que incorpora un mejorado encoder NVENC que agrega soporte para formatos H.265, también conocido como HEVC (High Efficiency Video Coding) el cual ofrece un significativo nivel de compresión y ahorro de ancho de banda respecto al formato H.264, esto conservando la misma calidad de video. Este motor de video está disponible solo en los núcleos GM2xxx de Maxwell y no en el núcleo GM107 de las GeForce GTX 750/750 Ti que solo poseen soporte mejorado para H.264
Al encoder HEVC, el motor de video en Maxwell H.264 tambien mejora su rendimiento en cerca de 2.5 veces respecto a Kepler, permitiendo codificar videos 6K a 60 cuadros por segundo. Esta característica es soportada actualmente con NVIDIA ShadowPlay.
NUEVAS TÉCNICAS GRÁFICAS Y VISUALES
NVIDIA Voxel Global Illumination (VXGI): Las técnicas de iluminación global (GI) han sido un elemento fundamente y esencial dentro del desarrollo de las GPUs y sus respectivas arquitecturas gráficas. La iluminación es un aspecto clave para darle realce, un mayor realismo y dinamismo a las imágenes y escenas en los videojuegos, las técnicas de iluminación global son incluso usadas en el Cine. Con Maxwell NVIDIA ha dado un paso adelante en lo que respecta a iluminación global de objetos y escenas con el soporte para NVIDIA Voxel Global Illumination (VXGI).
Según NVIDIA, esta técnica se basa en un concepto pionero del investigador Cyril Crassin de NVIDIA desde el 2011, donde se utilizan estructuras de datos 3D denominados “Voxels” para capturar la información de iluminación en cada punto de una escena. Esta estructura de datos puede ser trazada durante el rendereo final de una etapa, para determinar con precisión los efectos de luz y rebote alrededor de una escena, todo de manera dinámica y en tiempo real.
VXGI incluye soporte para varias características gráficas que dramáticamente aceleran el proceso de “Voxelizacion” (Voxelization) donde se convierten elementos geométricos como triángulos en Voxeles. Esta técnica según NVIDIA mejora el rendimiento para la técnica de iluminación global y mientras mediante algoritmos de software permiten que pueda ser ejecutada en todas las GPUs, las mejoras de rendimiento y su aplicación en tiempo real sólo son posibles mediante aceleración por hardware con GPU de arquitectura Maxwell.
La técnica de Voxelizacion consta principalmente de tres etapas: 1° Vexelization donde se convierten figuras geométricas en Voxeles: 2° Light Injection donde se calcula la cantidad de luz directa reflejada por los voxeles y 3° Final Gather donde se calculan las condiciones de rebote de luz del entorno.
VXGI también posee un motor de multi-proyección, que toma la geometría de una escena y la re-proyecta en múltiples superficies simultáneamente. NVIDIA se tomo tres años para desarrollar e implementar esta técnica para ser acelerada nativamente por sus GPUs, como así también mejorar los algoritmos para un mejor rendimiento, el resultado es VXGI.
Si bien es cierto que el proceso de Voxelizacion puede ser llevado a cabo por un amplio rango de hardware como GPU Kepler, consolas etc, sin embargo, las GPU Maxwell están optimizadas para sacar un máximo rendimiento gracias a algunas técnicas que ha implementado NVIDIA como “Viewport Multicast y Conservative Raster.
Multi-Pixel Programmable Sampling: Otra de las técnicas que NVIDIA introduce en esta generación de tarjetas, y que es la base para MFAA. Esta técnica está relacionada directamente con las técnicas de alisado o Anti Aliasing (AA) para mejorar la calidad de imagen. El núcleo GM204 posee varias nuevas características más flexibles para aplicar técnicas de alisado y que no se basen en técnicas prefabricadas o pre-elaboradas, permitiendo de esta forma mejores avances en la calidad de los alisados y mejor eficiencia.
Según indica NVIDIA las actuales GPU vienen con sus propios muestras de alisado almacenados en la ROM, así cuando los jugadores seleccionan 2x o 4xMSAA por ejemplo, una muestra pre-almacenada es usada y mientras varios juegos actuales implementan técnicas más avanzadas de post-processo como FXAA y SMAA, todavía hay otros que continúan usando los tradicionales alisados basados en hardware MSAA (Multi-Sample AA). Las GPUs GM200 soportan lo que NVIDIA denomina multi-pixel programable sampling para procesos de rasterización, lo que permite técnicas más flexibles de alisado.
Multi-Frame sampled AA (MFAA): Esta técnica está relacionada con la anterior, y lo que hace en términos sencillos es alternar patrones de muestra AA tanto temporal como espacialmente para producir la mejor calidad de imagen, mientras ofrece una ventaja de rendimiento en comparación con el tradicional MSAA. El resultado final puede proporcionar una calidad de imagen cercana a la de un filtrado 8xAA, pero con el costo de rendimiento de un filtrado de 4xAA, o una calidad de filtrado 4xAA más o menos al costo de un filtrado 2xAA.
Según NVIDIA, MFAA está todavía en desarrollo, por lo tanto, no es una técnica que este implementada en su 100% en las nuevas GPUs de NVIDIA, pero al menos el soporte esencial está listo en esta generación de GPUs.
Dynamic Super Resolution (DSR): Esta técnica en términos bien simples y sencillos lo que pretende es poder por ejemplo mediante la GPU renderear un juego a una resolución más alta de la que la pantalla puede mostrar y luego reducir las escenas a la resolución nativa de la pantalla, una técnica conocida como Downsampling, que escala una imagen desde una resolución alta a una resolución más baja, sin perder la calidad en este proceso.
Por ejemplo Dynamic Super Resolution puede renderear escenas en 4K para mostrarlas en una pantalla Full HD a 1920 x 1080, lo práctico es que no se requiere de tanta intervención del usuario y ajustes en el panel de control de los controladores (como si ocurre con los métodos tradicionales de Downsampling), sólo basta activar o desactivar la técnica en el panel de control de NVIDIA y listo.
La técnica DSR, estará disponible en el panel de control de los controladores GeForce 343, como así también en la aplicación GeForce Experiencie, donde se fijaran los ajustes óptimos o Optimal Playable Settings (OPS) para Dynamics Super Resolution para los principales juegos actuales. Esta técnica es compatible con todos los GPUs de NVIDIA, pero el mejor rendimiento podrá ser obtenido con la GeForce GTX 980/870.
Soporte completo para Direct3D 11.1/11.2 y parcial para D3D 11.3
Kepler y Maxwell de primera generación soportan oficialmente Direct3D 11.0, pero poseen soporte parcial para algunas características de Direct3D 11.1. Ahora con Maxwell de segunda generación NVIDIA agrega soporte completo para las características faltantes de Direct3D 11.1, pero además agrega soporte completo para los diversos niveles superiores de las librerías Direct3D como DirectX 3D 11.2.
Maxwell de segunda generación también soporta algunas de las características que están siendo introducidas en Direct3D 11.3 y que también estarán disponibles en Direct3D 12, la próxima versión de las librerías de Microsoft que apuntan a un modelo similar a la API Mantle de AMD con el objeto de sacar un máximo provecho del hardware mediante API de acceso a bajo nivel.
Algunas de las características que estarán disponibles en las librerías Direct3D 11.3 son por ejemplo Rasterizer Ordered Views (ROVs), Typed UAV Load, Volume Tiled Resources y Conservative Rasterization. Siendo la primera y la última las que justamente soporta Maxwell de segunda generación y que tiene por objetivo ayudar a proceso de Voxelizacion descrito en el apartado anterior.
Con esto Maxwell de segunda generación posee soporte completo para el actual set de librerías Direct3D, pero también está preparada para soportar las características de la próxima versión de de Direct3D 12, de hecho NVIDIA ya anuncio que sus generaciones de tarjetas gráficas como Fermi, Kepler y Maxwell soportarán DirectX 12, aunque de seguro el mejor soporte lo brindaran la generación de tarjetas basadas en Maxwell de segunda generación y futuros modelos basados en esta arquitectura.
NVIDIA PhysX Flex y Nuevos Efectos de físicas
La simulación de físicas de NVIDIA también ha recibido algunas actualizaciones que serán potenciadas con la nueva arquitectura Maxwell. En este contexto, NVIDIA ahora agrega soporte para físicas de césped (Turf) y hierva (Grass) con TURF EFFECT. Estos nuevos efectos permitirán agregar nuevos efectos físicos a videojuegos a campo abierto, simulando grandes regiones de hierba de manera realista con soporte para interacción física, sombreado natural, iluminacion etc.
Por otra parte el set de efectos de físicas agrupados en NVIDIA PhysX Flex, también agrega ciertos efectos para complementar aun más el set de simulaciones como dinámica de gases y efectos de adhesión de fluidos. Estos efectos avisa NVIDIA estarán disponibles en el motor Unreal Engine 4 de Epic y que potenciará varios videojuegos en el futuro.
NVIDIA PhysX Flex, anunciado en el 2013 es un conjunto de simulaciones de físicas unificadas en un solo SDK disponible para los desarrolladores, tiene por objetivo ofrecer en un solo set varias simulaciones para que los desarrolladores agreguen a sus videojuegos, en lugar de ofrecer efectos por separado como se hacía antiguamente con la tecnología NVIDIA PhysX de NVIDIA.
Realidad Virtual con: NVIDIA VR Direct Technology.
La realidad virtual comienza a abrirse paso en el mercado de los videojuegos, lo que comenzó como una utopía años atrás vista sólo en películas (¿Alguien recuerda la escena de intima de Sandra Bullock y Silvestre Stallone en la cinta El Demoledor de 1993?) comienza a ser una realidad gracias a empresas como Oculus VR, Sony, Samsung y el mercado de tarjetas gráficas no puede estar al margen de esta nueva tecnología que comienza a invadir el segmento de los videojuegos.
NVIDIA consciente de esto, ha implementado su tecnología NVIDIA VR Direct, que en simples palabras tiene por objetivo maximizar la experiencia inmersiva en videojuegos con realidad virtual, reduciendo las latencias que se generan en los diversos elementos que procesan las escenas de realidad virtual, como por ejemplo el sistema operativo, la GPU, el juego y la pantalla, utilizando para estos múltiples técnicas que harán una reducción notable en los tiempos de respuesta de las escenas y como las percibe el ojo humano.
Solo un ejemplo, el proceso estándar en una escena VR desde que tu mueves tu cabeza a cuando tu realmente ves la respuesta en la pantalla VR toma cerca de 50 milisegundos. La idea de NVIDIA es reducir esta latencia tanto como sea posible y así mejorar la experiencia inmersiva del jugador. Una larga porción de este retardo es tomada por la GPU (17ms) para dibujar (renderizar) la escena, como así también el sistema operativo (13ms).
Los ingenieros de NVIDIA han trabajado arduamente para reducir todos los aspectos de interconexión entre el juego y la GPU. Como primer apronte NVIDIA en una escena estándar de VR, NVIDIA logra (supongo mediante drivers) reducir en 10ms la latencia que toma el sistema operativo.
Pero esto no es todo, ya que utilizando técnicas como la ya descrita MFAA (Multi-Frame sampled AA) es posible reducir un poco más estas latencias, de esta forma usando esta técnica, en lugar del tradicional MSAA (Multi-Sampling AA) se logran reducir otros 4ms el tiempo que toma la GPU en el dibujado de la escena VR.
NVIDIA a pesar de que ha hecho importantes reducciones en las latencias de la escenas VR, al compañía está trabajando en otra técnica llamada Asynchronus Warp, el cual hará una reducción considerable desde los 50ms a solo 25ms en total. Con esta técnica básicamente la GPU toma la última escena renderizada y actualiza esta escena basada en la información de la última posición tomada por el sensor VR. El seguimiento de movimiento es literalmente procesado momentos antes de que tú lo puedas ver.
NVIDIA esta consiente y lo indica en sus documentos técnicos, que las técnicas de realidad virtual requieren una gran potencia de procesamiento de la GPU, Maxwell es el primer GPU optimizado para Realidad Virtual y mientras una GPU puede ser suficiente, NVIDIA recomienda una configuración de dos GPU para una experiencia sin sobresaltos, para esto la compañía implementará perfiles SLI especiales para VR, donde una GPU se encargará de la escenas que ve el ojo derecho y otra GPU se encargará de las escenas que ve el ojo izquierdo.
Los contenidos o juegos que soportan realidad virtual no son muchos más que los demos técnicos, es por esto que NVIDIA, utilizará su experiencia con NVIDIA 3D Vision, para brindar soporte para VR (Realidad Virtual) a los videojuegos que ya son compatibles con 3D Vision. NVIDIA trabajara para ajustar los parámetros para VR automáticamente con una futura actualización de su utilidad GeForce Experience.
Especificaciones GeForce GTX 980 y GeForce GTX 970
Ya hemos conocido las principales características del núcleo GM204 que potencia ambos modelos, pero ahora nos enfocamos en las principales especificaciones de frecuencia y ancho de banda de ambos modelos.
Partimos por la GeForce GTX 980, la cual se basa en el núcleo GM204-400-A1, con 2048 CUDA Cores, 128 TMU y 64 ROPs. La GPU viene con una frecuencia base de 1126 MHz y un Boost de 1216 MHz. La tarjeta viene con 4 GB de memoria GDDR5 operando a una frecuencia de 7 GHz, lo que le proporciona un ancho de banda de 224 GB/s, menor que los 336.0 GB/s de la GeForce GTX 780 Ti debido a que esta ultima utiliza un bus de 384-Bit, mientras la GeForce GTX 980 utiliza un bus de 256-bit. Pero esto se compensa gracias a que el GM204 posee una menor dependencia del ancho de banda de memorias.
Por otra parte la GeForce GTX 970 (que según la propia NVIDIA, reemplaza a la GeForce GTX 770), se basada en el núcleo GM204-200-A1 con 1664 CUDA Cores, 104 TMU y 64 ROPs. La GPU de esta tarjeta viene con una frecuencia base de 1050 MHz y un Boost de 1178 MHz. Tal como la GTX 980, la GTX 970 viene con 4 GB de memoria GDDR5 operando a una frecuencia de 7 GHz, lo que le proporciona un ancho de banda de 224 GB/s.
Ambas tarjetas debido a su configuración de memorias incorpora 4 controladores de memoria de 64-bit (2×32), por lo tanto, ambas poseen un bus de 256-bit y físicamente incorpora 8 chips de memoria Samsung para totalizar 4 GB de memoria GDDR5.
Precios.
Sin duda el dato más importante para los potenciales compradores de estar tarjetas es el precio. NVIDIA ha fijado un precio de lanzamiento para la GeForce GTX 980 de 549 dólares (mismo precio de lanzamiento de la Radeon R9 290X que bajo hace algunos días su precio a los US$ 449), mientras que la GeForce GTX 970 tendrá un precio de $ 299 dólares (mismo valor que tiene la Radeon R9 280X). Los modelos personalizados tendrán un precio superior y que dependerá de lo que fije cada fabricante.
REVIEWS
NVIDIA GoForce GTX 980 y GTX 970 @ Anantech
NVIDIA GoForce GTX 980 y GTX 970 @ Hot Hardware
NVIDIA GoForce GTX 980 y GTX 970 @ Benchmark Reviews
NVIDIA GoForce GTX 980 y GTX 970 @ TechReport
NVIDIA GeForce GTX 980 y GTX 970 @ Guru3D
NVIDIA GeForce GTX 980 y GTX 970 @ TechpowerUp
NVIDIA GeForce GTX 980 y GTX 970 @ Hexus
NVIDIA GeForce GTX 980 y GTX 970 @ HardOCP
NVIDIA GeForce GTX 980 y GTX 970 @ TechSpot
NVIDIA GeForce GTX 980 y GTX 970 @ PC Perspective
NVIDIA GeForce GTX 980 y GTX 970 @ Extremetech
NVIDIA GeForce GTX 980 y GTX 970 @ Bit-Tech
NVIDIA GeForce GTX 980 y GTX 970 @ TweakTown
Actualizando…