Desde inicios de año que venimos escuchando ruido relacionado con GT200. En CES se supo definitivamente que G100 en realidad pasaría a llamarse GT200, y desde ese entonces hemos estado esperando a la arquitectura que tenía que suceder a la exitosísima G80. Hoy ha llegado el momento, y tenemos para ustedes un análisis como corresponde de la nueva tecnología, donde pruebas REALES de juego muestran el comportamiento de la nueva arquitectura y los productos que viene a reemplazar, y donde presentamos los nuevos conceptos que NVIDIA busca introducir en el mundo de la computación visual. Cálculo general (cuando ocupas una tarjeta de video para hacer otras cosas distintas de jugar) y mucho más, después del salto.
Un largo camino ha recorrido NVIDIA desde sus comienzos en 1993, en que Jen-Hsun Huang (actual CEO), Curtis Priem y Chris Malachowsky fundaron la compañía, estando ligada desde sus comienzos a la tecnología de gráficos y tarjetas de video, no sólo orientadas para videojuegos, sino que también para usos productivos.
Muchos hitos, éxitos y derrotas (como la inolvidable serie FX, había que decirlo) han acompañado la carrera de esta compañía, que hoy comandada por el mediático Jen Hsun incluso se da el lujo de hacer una campaña contra uno de los actores más poderosos de la industria. La computación visual, concepto que no sé si venga en serio o sea otro más de esos conceptos marketineros metidos a cucharadas en el mercado (como el UMPC, se acuerdan que el 2007 todo era UMPC y ahora no ya que todo es MID), es parte nuclear del discurso de NVIDIA (y del resto de los involucrados en el negocio, hoy todos venden computación visual) y la nueva arquitectura que hoy analizamos tiene dentro de sus genes la capacidad de, además de mover muchos poligonitos, hacer cómputo por naturaleza. Suena a que NVIDIA tiene un punto. Ya veremos si es o no válido a medida que pasen los meses.
Por mientras, vamos a lo que nos gusta: desarmar, jugar, medir y probar.
NVIDIA con su nueva familia de tarjetas graficas GeForce 280/260 series, ha introducido una nueva y renovada arquitectura que debuta con su Segunda Generación de gráficos unificados y su nueva arquitectura de computo “Parallel Computing Architecture” o Arquitectura de Computo Paralelo, además de una mejorada arquitectura de proceso grafico o “Graphics Processing Architecture”. Ambas traen varios secretos técnicos que pasaremos a revelar en el siguiente análisis, en donde resumiremos y explicaremos los puntos más destacables para poder comprender la arquitectura de las nuevas tarjetas de NVIDIA.
Arquitectura:
La arquitectura de las nuevas tarjetas de NVIDIA podríamos definirla como una Arquitectura Transversal, puesto que no solo se centra en la aceleración de juegos 3D como ha sido tradicional a través de las distintas generaciones de tarjetas, sino que también se centra en cálculos de propósito general, “invadiendo” -entre comillas- un campo dedicados hasta hace poco sólo a los procesadores (CPU). Las GeForce GTX 200s de partida se basan en un núcleo (GTX200) fabricado a 65nm (TSMC) con nada menos que 1400 millones de transistores y 240 núcleos de proceso, el doble en cuanto a transistores de los que posee la tarjeta no-dual-GPU más poderosa de NVIDIA hasta la fecha (GeForce 9800GTX) cuyo conteo de transistores llega a los 754millones y 128 núcleos de proceso. Estas características le dan al núcleo GTX200 un poder de cálculo de 933 GigaFlops (Giga Floating Point per Second o Giga Operaciones de punto flotante por segundo), siendo el núcleo más grande, complejo y poderoso jamás creado por la compañía de Santa Clara.
–
–
Paralell Computing Architecutre:
Las GeForce GTX 280/260 se basan como ya mencionamos en una nueva y mejorada arquitectura, ésta tiene dos modos de trabajo, “Paralell Computing Architecutre” (el que vemos en la imagen) que proporciona calculo paralelo para tareas que no son netamente acelerar juegos, sino que aplicaciones de computo intensivo como lo pueden ser aceleración de video HD, calculo de físicas, computación distribuida (fonding@home), aceleración de procesos científicos, computación visual (animación, render 3D, modelado) etc y el otros modo es “Graphics Processing Architecture” que es el sistema tradicional de rendereo y aceleración grafica para los juegos.
Para ambos casos (paralelo y grafico) el diseño interno es el mismo y se denomina SPA (Scalable Processor Array), una especie de “Framework” o estructura en la cual tenemos 10 bloques denominados “Texture Processing Clusters” (TPCs) en el modo grafico y “Thread Processing Clusters” en modo de computación paralela. En la parte inferior tenemos el sistema de memoria principal, que en el caso de la GeForce GTX 280 son 8 bloques que totalizan 1024MB de memoria grafica.
Entre el sistema de memoria y el SPA tenemos también las unidades de cache de texturas (Text L2) estas son usadas para que el acceso a memoria sea más eficiente en operaciones de lectura y escritura, también tenemos unas unidades especiales denominadas “atomic”, que son unidades de acceso especial a la memoria para tareas de lectura-modificación-escritura. En la parte superior esta el “Thread Scheduler”, encargado de administrar los hilos de ejecución de cada núcleo, todos estos elementos forman parte del modo de computación paralela o “Paralell Computing Architecture”.
–
–
TPC (Texture Processing Clusters).
Si hacemos un Zoom en la estructura veremos lo siguiente: un cluster o unidad TPC (Texture Processing Clusters), dentro de esta unidad tenemos tres bloques denominados Streaming Multiprocessors (SMs) y cada uno de ellos contiene ocho núcleos (cores), 24 en total, los que conocemos con el nombre de Streaming Processors (SPs) o Thread Processors, dependiendo del modo de trabajo (grafico o paralelo), por lo tanto, si aplicamos matemáticas básicas tenemos que multiplicando estos 24 SPs por el número de TPC (10), tenemos en total los 240 Streaming Processors de la GeForce GTX 280.
Dentro del TCP tenemos también ocho unidades de textura denominadas “Texture Filtering” (TF) usados en el modo grafico, pero que también sirven en el modo de computación paralela, el bloque lo completan una memoria local compartida (Local Memory) de 16K dentro de los SMs y que tiene la función de servir como un enlace entre cada core para poder compartir datos entre cada uno, sin la necesidad de tener que leer o escribir en un subsistema de memoria externo, lo que mejora la latencia y tiempos en las micro-transferencias de cada core. Finalmente tenemos el respectivo bloque de memoria L1 que esta presente en cada TCP.
–
–
Graphics Processing Architecture:
Tal como comentamos al inicio la arquitectura de las nuevas tarjetas de NVIDIA consta de dos modos de trabajo, “Parallel Computing Architecture” y “Graphics Processing Architecture”, la estructura es la misma, solo que en el modo grafico debemos agregar las unidades ROPs (Raster Operations Processors o Procesadores de operaciones de barrido que se componen de 8 clusters con 16 unidades cada uno, danto un total de 128 ROPs. Mas abajo tenemos el sistema de memoria ya descrito anteriormente que tiene una interfaz de comunicación de 512-bit. En tanto las unidades de vertex y píxel shader mas la unidad de geometría de sombras (Geometry Shader) se encuentra en la parte superior, lo que conforma la ya conocida arquitectura de shader unificados. Otro elemento que se mantiene en el modo grafico es el cache de texturas (Text L2).
Sistema de Memoria:
La GeForce GTX 280, hace uso de memorias GDDR3, en su arquitectura interna se conforma en total por 16 bloques (8×8) de memoria, que en su arquitectura de diseño externo, se representa por 8 chips de memorias por cada lado de la tarjeta (16 en total), están ubicados en pares y cada par posee una interfaz de comunicación de 64-bit, así que si multiplicamos estos 64-bit por el numero de bloques de memoria (8) tendremos en total una interfaz de memoria de 512-Bit, una mejora respecto a la generación previa que utilizaba 384-bit de interfaz de memoria.
Por otra parte estos 16 chips de memoria de 64MB cada unos conforman un Framebuffer de 1024MB (1GB), una cantidad muy necesaria si pensamos en los altos requerimientos gráficos, visuales y de efecto que pueden exigir actualmente los videojuegos, sobre todo con tecnologías demandantes como DirectX 10, PhysX, contenidos HD, grandes filtros de video, Altas resoluciones, es por esto que en términos de balancear la arquitectura respecto a la generación previa de tarjetas se ha mejorado el ancho de banda de la interfaz a 512-Bit para proveer un camino mas expedito de las texturas al Framebuffer (TEX:FB), por otra parte también ayuda en esta tarea el sistema de compresión por hardware que utilizan las tarjetas NVIDIA que ayuda a ocupar mas eficientemente la interfaz. En términos numéricos tenemos que el ancho de banda efectivo del sistema de memorias en la GeForce GTX 280 alcanza 141.7GB/s con memorias a una frecuencia de 2,214 MHz.
SIMT Architecture:
Los modos de proceso descritos anteriormente “Paralelo y Grafico” también usan dos modelo de procesamiento, para las ejecuciones a través del TPCs (Texture Processing Clusters) el modo utilizado es MIMD (multiple instruction, multiple data) y mas internamente para ejecuciones a través de cada SM (Streaming Multiprocessors) el modo utilizado SIMT (single instruction, multiple data), una mejora tanto en rendimiento como en a nivel de programación sobre el modo SIMD (single instruction, multiple data). SIMT a su vez asegura que todos los núcleos de proceso estén 100% siendo utilizados todo el tiempo y que los thread puedan tomar su propio camino, puesto que los desvíos (branching) son manejados por el Hardware y no necesitan branching manual.
Más Stream Processors = más poder y tamaño
La nueva Generación de tarjetas como ya vimos anteriormente, incrementa el numero de SP (Streaming Processors), respecto a los nucleos G80 Y G92, pero ¿Cómo se llega a esta cifra?, en primer lugar incrementando el numero de TCP de 8 a 10 y en segundo lugar incrementando los SMs por TCP de 2 a 3, pero manteniendo el numero de SP por SM en 8. De esta forma sólo hay que multiplicar para obtener los 240 Streaming Processors de la GeForce GTX 280.
Todas estas mejoras en la arquitectura y numero nucleos han tenido tambien un impacto en el tamaño fisico del GTX200, puesto que una superficie de 576 mm² lo hacen un chips bastante grande en dimensiones, comparado con el núcleo de la Geforce 9800 GTX (G92-420) que también esta fabricado a 65nm pero con un área mucho inferior de sólo 330 mm², incluso el área es más grande que el G80 (90nm) de la 8800 Ultra que solo mide 484 mm², a pesar de utilizar un proceso de manufactura de mayor tamaño a nivel de transistores y respecto a esto ultimo, el tamaño del GT200 también se debe al numero de transistores que incorpora (1400 millones) que son mas de el doble del G92 (754 millones) y G80 (681 millones). Es por esto que segun se ha informado anteriomente, NVIDIA estaria preparando una version de 55nm del GT200 que deberia venir mas adelante.
Cientos de núcleos = Miles de Threads.
Como ya vimos en los diagramas precedentes el núcleo de las GeForce GTX 280, consta de 240 cores o núcleos de proceso, estos a su vez pueden administrar en total miles de hilos de ejecución o threads de distinto tipo (pixel, vertex, geometría y computo), estos hilos de ejecución son administrados por el Threads Scheluder que se encarga de mantener todos los núcleos casi al 100%, además la arquitectura de la GPU posee tolerancia a la latencia, por ejemplo, si un thread queda esperando por acceso a memoria, el GPU puede cambiar a otro thread para procesar, de esta forma se mantiene una actividad constante sin sacrificar un núcleo por una tarea o thread en espera. Ahora bien cada unidad SIMT (single instruction, multiple thread)., dentro del SM (Streaming Multiprocessors), crea, administra, programa y ejecuta thread en grupos de 32 hilos paralelos “Paralell Threads” llamados “Warps”, es decir, hasta 32 warps por SM son soportados en las nuevas GeForce GTX 200 GPUs, comparado con los 24 warps por SM en las GeForce 8 y 9 Series. ¿Que quiere decir esto? básicamente una mejora 34% en las capacidades multi-hilo por cada SM de la GeForce GTX 280. En total la GeForce GTX 280 puede administrar hasta 1024 Thread por SM y si consideramos que en total la arquitectura tiene 30 SM (Streaming Multiprocessors), esto nos da un total de 30.720 Thread que puede administrar el GPU de las GeForce GTX 280.
Soporte Double Precision 64-bit Floating Point.
Este es otro asunto muy importante en la nueva generación de tarjetas graficas, esta tecnología de computo exacto y preciso utilizada por ejemplo para aplicaciones científicas, de ingeniería y financieras es soportada por CUDA y hace uso de lo que se denomina Double-Precision o Precision-doble de 64-bit, a pesar de que el núcleo G80 soporta este tipo de cálculos, el soporte solo llega single-precision de 32-bit de computación de punto flotante (FP-32), las generaciones previas al G80, soportaban FP-16, en cambio con el GTX200 este soporte llega a los 64-bit pero con doble precisión. De esta forma cada uno de los 30 Streaming Multiprocessors (SMs) incorpora una unidad matemática de 64-bit Floating Point o FP-64.
Bueno quedamos hasta aquí con el análisis de la arquitectura, estos son los puntos mas destacables de la nueva generación, de todos modos esperamos que a pesar que puede resultar difícil de entender, hayas comprendido en parte como funciona por dentro el núcleo de las GeForce GTX 280.
Fotos Oficiales
Antes de mostrarles las fotos reales de esta nueva tarjeta de video, los dejamos con la galeria de fotos oficiales de NVIDIA de sus nuevos juguetes.
Con un diseño externo similar a la GTX 280 solo se diferencian en el color de las bandas (blancas) y en el logo del cooler.
Elegante e imponente la GTX 280 luce como una GTX 260 pero «mas Dark»
Ahora los dejamos con las fotos reales de la GeForce GTX 280.
Inspección Visual
En la imagen superior pueden ver a la nave emblema de la nueva generación GT200 de NVIDIA: La GeForce GTX280. Con 27 centímetros de largo, mide lo mismo que las anteriores tarjetas High End, como la 9800GX2 y la 9800GTX.
La fotografía nos confirma que necesitarán una fuente de poder con conector PCI-Express de 8 pines para lograr arrancar un sistema que incluya una GTX280. Si ponemos un conector de 6 pines, se encenderá la luz roja y no lograremos iniciar.
El conector SLI doble, que permite unir tres de estas tarjetas en el aberrante modo 3-Way SLI
–
–
Mirada a Fondo
Hora de retirar la coraza y ver que lleva bajo el disipador la GTX280. Ojalá no se nos pierda ningún tornillo.
Ahora podemos ver que lo que más destaca es el enorme IHS encima del núcleo GT200. 1,400 millones de transistores están protegidos de nuestras manos de hacha bajo el IHS. También se aprecian los 8 chips de memoria que posee en su frontis, a eso sumarle 8 chip que posee por el reverso.
El chip NVIO, presente desde la 8800GTX en adelante.
Arriba pueden ver un primerísimo primer plano del IHS que protege el GT200. Realmente grande, el GPU más grande diseñado a la fecha, esto debido a su superficie de 576 mm², el motivo de esto ya lo comentamos en analisis de la arquitectura.
Aquí pueden ver las fases de poder encargadas de distribuir y limpiar la energía que llega desde nuestra placa madre.
Una de los 16 chips GDDR3 de memorias que monta la GeForce GTX-280 (8 en el frente y 8 por detrás) son de fabricación de Hynix y son memorias de 0.8ns, vienen seteadas a 1107Mhz lo cual nos dá un pequeño márgen de Mhz para poder subir via overclock.
Refrigeración y Temperatura
En lo referente a la refrigeración de la GeForce GTX 280 podemos mencionar que utiliza un cooler similar al encontrado en tarjetas como la 9800GTX. Un gran radiador de aluminio atravesado por 3 heatpipes. En sí es bastante robusto y pesado. El ventilador se autoregula en base a la temperatura por lo que en gran parte del tiempo su sonido es bien suave.
Una gran base de cobre hace contacto con el gran IHS del GT200, se aprecian los thermal pads que hacen contacto con los chips de memorias y los reguladores de la fase de poder.
Sin dejar de lado la disipación de los chips traseros de la GTX 280, tenemos esta placa metálica que posee thermal pads tambien para disipar a las memorias, se aprecian rendijas de ventilación por las cuales se disipa bastante calor generado sobretodo tras el core.
Temperaturas
Como mencionamos antes, el cooler de la GeForce GTX 280 es autoregulable, por lo que aumentan o disminuyen las rpms en base a la temperatura que posee la tarjeta.
temp en idle:
GPU: 41 ºC
PCB: 36.5 ºC
temp full load:
GPU: 66 ºC
PCB: 53 ºC
Como podemos apreciar, las temperaturas no son tan altas como por ejemplo en tarjetas como la GeForce 9800GX2 o en otras como las pertenecientes a la serie 8. El ruido producido por el cooler en bajas rpm es practicamente inaudible, un mero suzurro, pero al estar a full rpms es realmente molesto.
Especificaciones: Antes de comenzar a comentar las tecnologías soportadas por las nuevas tarjetas y el núcleo GTX200, veremos un screenshot del software GPU-Z con las especificaciones de la GeForce GTX 280, más una tabla tabla comparativa de especificaciones técnicas de las GeForce GTX 280/260, comparada con el ultimo núcleo grafico que lanzo la compañía de santa clara el G92, incorporado en la GeForce 9800 GTX.
Las diferencias mas notables entre el G92 y el GTX200, son de partida el número de transistores, la interfaz de memoria, los stream processors, la cantidad de memoria, los ROPs y el ancho de banda de las memorias que se incrementa al doble, las frecuencias por su parte se mantienen en niveles parejos.
NVIDIA PhysX Ready:
Las tecnologías de físicas son una herramienta que NVIDIA adquirió cuando compro la empresa AGEIA, y desde las GeForce 8 en adelante las tarjetas de NVIDIA compatibles con CUDA, son compatibles con la tecnología de físicas, sin embargo, a pesar de esto la generación previa no tendrían la potencia necesaria para mantener un buen framerate en niveles altamente complejos en los juegos, escenas con muchas animaciones y numerosos efectos físicos, datos que no podremos confirmar hasta que NVIDIA libere los drivers oficiales para físicas. Pero NVIDIA indica de todos modos que con las GeForce 280/260 NVIDIA incorpora este soporte nativamente, aun cuando se requieren drivers para soportar la tecnología, la ventaja está en la potencia que entrega el núcleo de la GeForce GTX 280, ya que las nuevas tarjetas de NVIDIA a diferencia de las generaciones previas poseen aun mayor poder para ejecutar cálculos y efectos físicos que permitirán mantener un framerate constante y escenas fluidas en los juegos que incorporen soporte para físicas, entre estos efectos podemos mencionar: efectos faciales y de animación, efectos volumétricos como humo, niebla, vapor etc, simulación de fluidos y vestimenta, simulación de efectos físicos como escombros, explosiones, fuego y efectos de clima como nieve y agua, tormentas de arena, humedad, iluminación de ambientes, sombra etc etc.
Folding@Home.
NVIDIA ha estado ausente por varias generaciones de tarjetas graficas para el soporte de computación distribuida, como el programa folding@home de la universidad de Standford, sin embargo, la entidad y la empresa han estado trabajando conjuntamente para lanzar pronto un cliente folding@home compatible con las nuevas tarjetas de NVIDIA, las cuales gracias a su potencia de calculo de 933 GigaFlops y su arquitectura de computación paralela, podrán entregar un mayor rendimiento comparado por ejemplo con lo que puede entregar un procesador quad-core, la PS3 o la Radeon HD 3870, tal como se muestra en la imagen siguiente.
En este terreno NVIDIA tomaría el liderato, que lleva ATI desde el lanzamiento de las Radeon X1900 en el 2006, y que fueron las primeras tarjetas graficas en soportar folding@home, algo que hasta ese entonces solo se hacia vía CPU.
Procesador vs GPU.
En el ultimo tiempo NVIDIA e Intel se han enfrascado en una discusión respecto a la importancia tanto del CPU como del GPU para cálculos diversos, cada uno desde luego mantiene una posición ensimismada al respecto, y NVIDIA lo deja claro con este ejemplo, donde una GPU provee mayor poder de computo que un procesador actual, esto gracias a que un GPU es mucho mas complejo que un procesador y el GTX200 no es la excepción, la cifras en la grafica son claras y no merecen comentario adicional.
Aceleración de Video.
La aceleración de video es una de las tareas dentro de la arquitectura de computo paralelo y que ha sido -desde hace algunas generaciones de tarjetas atrás- (tanto ATI como NVIDIA), traspasada desde la CPU al GPU, el poder de proceso de los procesadores gráficos ha hecho que estas tareas sean mas rápidas y tomen menos tiempo utilizando el GPU, de pasada se libera al procesador central de estas operaciones. En el caso de la nueva generación de tarjetas tenemos también una mejora en los tiempos de codificación y descodificación de video de alta definición, esto gracias a su la tecnologia Pure Video HD y el Video Processor 2 o Procesador de Video de 2ª generación (VP2) que ayuda en la decodificación de formatos de video SD y HD como H.264, VC-1, MPEG 2 y WMV 9.
NVIDIA HybridPower Technology
La tecnología HybridPower no es nueva, pues ya se ha utilizado en generaciones previas, por lo tanto, la nueva generación no ha sido la excepción, si no sabes en que consiste te aplicamos. Para utilizar esta tecnología se necesita una placa madre compatible y con video integrado, en el caso de NVIDIA desde el chipset nForce 780 en adelante se soporta esta tecnología la cual consiste en optimizar los consumos de energía, desactivando la gráfica discreta cuando no se requiere poder 3D adicional, por ejemplo, cuando reproduces video , navegas por Internet, escribes en Office o revisas correo electrónico, de esta forma logra reducir el consumo y disipación térmica que puede generar el uso innecesario de la grafica discreta, en tanto que puede volver a activar la GPU discreta cuando necesitas un boost en el rendimiento grafico, situación que se da cuando juegas con algún titulo que demande proceso grafico 3D intenso. Así la GeForce GTX 280 puede ser desactivada cuando no se necesite de su poder grafico, esto gracias a al tecnología HybridPower.
NVIDIA CUDA.
La tecnología CUDA (Compute Unified Device Architecture / Arquitectura de Calculo Unificada) es un entorno de programación en C que permite aprovechar la gran capacidad de procesamiento de la última generación de GPU NVIDIA, las GeForce GTX 280/260, aunque también es compatible con toda la familia de tarjetas GeForce 8 series, Telsa y algunas tarjetas de la familia Quadro FX. Gracias a CUDA, los desarrolladores pueden utilizar los procesadores gráficos de NVIDIA para resolver problemas de cálculo de alta carga computacional en campos como la exploración de gas y petróleo, la gestión de riesgos financieros, el diseño de productos, la generación de imágenes y la investigación científica. Debido a esto, los programadores de CUDA usarán C para crear programas llamados threads «hilos» y que serán muy similares a lo que hoy en día se conoce como «multi-threading» en los CPU’s tradicionales. Esto quiere decir que la tecnología CUDA procesará miles de tareas simultáneamente, habilitando así una gran capacidad de flujo de datos. CUDA por lo tanto es un elemento esencial en el modo de computación paralela o “Parallel Computing Architecture”y en esta generación de tarjetas se podrá aprovechar de mejor forma la potencia y el número incrementado de procesadores o núcleos de las GeForce 280/260.
Soporte DirectX 10.
Es importante destacar que si bien desde el núcleo G80 las tarjetas NVIDIA soportan DirectX 10, en esta generación de tarjetas no ha sido la excepción, a pesar de que en el bando contrario (ATI) ya han paso al soporte de DirectX 10.1, según NVIDIA la nueva generación de tarjetas graficas GeForce GTX 280/260 series, se mantendrá con este soporte la cual entrega mejores efectos gráficos y visuales en los juegos compatibles con la tecnología, a su vez que demanda un mayor poder en el GPU para mantener una tasa de frames por segundo constante.
¿Por qué NVIDIA no soporta DirectX 10.1?, la explicación la da la propia compañía: “DirectX 10.1 no es soportado en las GPU GeForce GTX 200s. DirectX 10.1 incluye características incrementales adicionales mas allá de DirectX 10, algunas de las cuales ya están soportadas en las GeForce 8/9/200 series (Multisample readback por ejemplo). Nosotros consideramos el soporte DirectX 10.1 durante la fase de diseño inicial de las GPU GTX200 y consultamos con importantes desarrolladores de software al respecto. El Feedback indicó que DirectX 10.1, no es importante, así que decidimos concentrarnos en entregar una mejor performance y una arquitectura más eficiente.”
Otras tecnologías soportadas: Si nos dedicamos a detallar todas las tecnologías que soportan las nuevas tarjetas de NVIDIA nos faltarían páginas paraa detallarlas, es por esto que a continuación nombraremos las demás tecnologías soportadas por las GeForce GTX 280/260, mas una breve descripción.
PCI Express 2.0: Segunda generación de la interfaz que dobla el ancho de banda de la version previa.
Soporte HDMI Y HDPC: Especialmente tecnologías destinadas al soporte de fomatos de alta definición protegidos como Blu-Ray.
Tecnología NVIDIA SLI y 3-way SLI: Ambas tecnologías multi-GPU tendientes a incrementar el rendimiento grafico utilizando 2 o 3 tarjetas.
NVIDIA Lumenex™ Engine: Nuevo motor de filtros introducidos desde las GeForce 8800s y que permite nuevos niveles de filtros, como la combinación de AntiAliasing y HDR de 128-bit.
16× Antialiasing Technology: Nuevo nivel de filtro gracias al Lumenex™Engine.
GigaThread™ Technology: Tecnología propia de la arquitectura multi-thread de los núcleos GTX200, que permite soportar miles de threads simultaneos e independientes.
128-bit Floating Point High Dynamic-Range (HDR) Lighting: Ya soportada desde el G80 y presente en la nueva generación y que dobla el ancho de banda de la generaciones previas, además con soporte para filtro anti-aliasing. Esta tecnología esta tendiente a ofrecer efectos más realistas de iluminación en los juegos.
NVIDIA PureVideo ®HD Technology: Tecnología destinada a la reproducción de video HD para procesos de decodificación y post-proceso y que entrega imágenes mas claras, reproducción de video mas suave, colores mas exactos e imágenes mas precisas.
Plataforma de pruebas
Para probar la NVIDIA GeForce GTX 280 usamos un sistema equilibrado con componentes que acompañarán al rendimiento de la tarjeta y los productos con que la compararemos (aparte de tratar de resistir de la mejor manera posible al tragarecursos que es Windows Vista).
Compararemos la GTX 280 contra:
- NVIDIA GeForce 9800GTX
- NVIDIA GeForce 9800 GX2
- AMD ATI Radeon HD3870X2
Usando en Hardware:
- CPU: Intel Core 2 Extreme QX6850
- Memoria RAM: 4×1GB Corsair XMS2 CM2X1024 6400C4 corriendo a 800Mhz y latencias 4-4-4-12
- Placa madre: Asus P5E
- Disco Duro: Seagate 7200.10 250Gb
- Fuente de poder: Tuniq 1200W
- Monitor: Viewsonic VX2255WMB
Y en Software:
- Windows Vista 32bit + SP1
- 3DMark 2006 1.1.0
- Fraps 2.9.4
- Crysis 1.2
- Call of Duty 4 1.5
- Bioshock 1.1
- Company of Heroes 1.71
- Need for Speed: Pro Street 1.0
- Tombraider Anniversary 1.0
- GeForce Driver Release 177.34 (GeForce GTX 280)
- GeForce Driver Release 175.16 (GeForce 9800GTX y GeForce 9800GX2)
- AMD Catalyst Driver 8.5 (Radeon HD3870X2)
Metodología de Testeo
Como ya les explicamos en el review de la VGA 9800GTX de nVidia, estamos usando un método de medición que busca ir un poco más profundo en la búsqueda de resultados para comparar distintos GPUs. Cuento corto, no más timedemos y tampoco FPS promedio en cada juego, les presentamos una alternativa a las típicas mediciones que Uds. mismos podrán reproducir en sus casas, jugando (valga la redundancia) el juego a medir. Pero… si no hay más timedemos, y no más “promedios”de rendimiento. ¿Cómo entonces?
Sólo pruebas de juego en tiempo real, de escenas seleccionadas por ser representativas del juego en cuestión (si es que hablamos de escenas interiores, exteriores, llenas de villanos, paisajes vacíos, etc, tenemos que jugar en todos esos lugares para ver que tanta diferencia hay entre uno y otro escenario) que monitoreamos segundo a segundo, para entregarles el rendimiento de esa misma manera: segundo a segundo. De una manera muy similar a como testean nuestros colegas de www.hardocp.com, que tienen una doctrina muy ortodoxa a la hora de hacer pruebas de la que compartimos algunas ideas, como el hecho de encontrar más valioso el mostrar resultados segundo a segundo.
Con nuestras nuevas gráficas ustedes podrán comparar con el video de la secuencia que mecanizamos y ver en que partes es cuando más se exige al hardware. Con esto podrán ver si el rendimiento es parejo, irregular, aceptable o de plano hace que tengamos que replantearnos nuestra compra. Estos nuevos gráficos también hacen que ustedes puedan si desean probar su propio hardware y constatar nuestros resultados (nuestra batería de savegames está disponible para todo aquel que los pida), ya que ahora los reviews de MADBOXPC están planteados directamente desde la silla de los gamers: no más resultados irreproducibles.
Elección de Juegos y su Configuración
Para probar las VGA, elegimos juegos que sean representativos de la oferta que la industria tiene en la actualidad; los shooters en primera persona más populares: Crysis, Call of Duty 4 y Bioshock (representando distintos engines que se comportan de distinta manera tanto con el hardware como con los drivers), un juego de estrategia en tiempo real: Company of Heroes, un juego de carreras de autos: Need For Speed: Pro Street, y un juego de aventuras en tercera persona: Tombraider Anniversary. Todos muy diversos en cuanto a visualidad, exigencia y jugabilidad, por lo que podrán observar mucho mejor el rendimiento general de los productos que analizaremos.
¿Y que configuración gráfica ocuparemos? Por lo menos para los reviews de VGAs high-end los juegos los probaremos con las siguientes configuraciones:
Crysis: Todos los detalles gráficos en High, sin filtros activados (el uso de filtros en Crysis en Windows Vista realmente llevaba el rendimiento al suelo, y para hacer nuestras pruebas reales necesitamos que los framerate por lo menos superen los 10FPS, ya que con menos es muy difícil obtener números fiables) y corriendo en modo DirectX 9 (el modo DirectX 10 sólo se justifica para usar la configuración Very High, y además penaliza el rendimiento sin entregar una mayor calidad gráfica).
Call of Duty 4: Todos los detalles gráficos seteados en su máxima calidad, texturas Extra, 4 muestras de antialiasing (4xAA) y 16 muestras para filtrado anisotrópico (16xAF). Por suerte el motor de COD4 no es tan demandante y permite disfrutar del eye candy sin tener que sacrificar experiencia de juego.
Bioshock: Todos los detalles gráficos seteados en su máxima calidad, modo DirectX 10. Antialiasing desactivado, debido a que AMD aún no logra que sus drivers logren aplicar antialiasing en DirectX10. NVIDIA con sus drivers 174.74 hizo que se pudiera usar antialiasing en DirectX10 sin problemas, por lo que suponemos que en el corto plazo AMD hará lo mismo. No olvidemos que el Unreal Engine 3 inicialmente no permitía el uso de antialiasing de ninguna manera, ya que su técnica de iluminación “deferred lightning” no era compatible con ello. Filtro anisotrópico utilizando 16 muestras (16xAF).
Company of Heroes: Shaders en calidad alta (desestimamos el uso de calidad DirectX 10 ya que tiraba el rendimiento al suelo sin entregar una mejora de calidad notoria… puede que DirectX 10 haga muchas cosas de manera “choriflai” usando cálculo procedural para obtener el mismo resultado gráfico, pero si es a costa del rendimiento mejor hagamos las cosas a la antigua ;-). Todos los settings en su máxima calidad (excepto las texturas que fueron colocadas en High en vez de Ultra debido a un bug reconocido por Relic que hace que el juego se caiga de vez en cuando al usar el setting Ultra: inaceptable), filtros 4xAA y 16xAF. Para este juego probamos resoluciones 1280×1024 y 1600×1200 en vez de 1440×900 y 1680×1050 debido a que FRAPS + VGA AMD + Windows Vista + esas resoluciones daba un crash que hacía imposible testear.
Need For Speed: Pro Street: Todos los detalles gráficos seteados en su máxima calidad, filtro antialiasing en 4xAA y corrección de anisotropía en 16xAA.
Tombraider Anniversary: Todos los detalles gráficos seteados en su máxima calidad, 4 muestras de antialiasing y 16 de filtrado anisotrópico.
Ojo que para los amantes del overclock “deportivo”
incluiremos en nuestro set de pruebas reales 3DMark06 para poder darles una idea de cómo rendirán los productos si los quieren someter a una sesión de benchmarking competitivo.
3DMark06
3DMark, 3DMark, 3DMark. Perdón, quise decir 3DFraud. Que felices seríamos si los desarrolladores de drivers tanto rojos como verdes pusieran el mismo empeño que ponen en lograr controladores muy buenos para 3DMark para obtener rendimientos similares en todas las aplicaciones. De acuerdo, sabemos que es mucho más fácil optimizar el rendimiento de una aplicación que básicamente muestra las mismas imágenes una y otra vez, pero por favor… dejemos de incluir 3DMark en las cartillas promocionales que vienen en los Reviewers Guide. Aunque este dardo va más dirigido a AMD que a NVIDIA (ya que curiosamente hace bastante tiempo AMD obtiene con sus tarjetas puntajes 3DMark que contradicen furiosamente el rendimiento real de ellas), reiteramos: estos números en la práctica no significan nada, y a los únicos que podrían servir es a los adeptos al overclock deportivo.
Aún a pesar de esto, es curioso que la GTX280 no logre un puntaje 3DMark superior a la 9800GX2. Veamos que dicen el resto de las pruebas que representan bastante mejor el comportamiento de las VGA en la jungla.
Crysis
En una curva que está peligrosamente cerca de la entregada por la 9800GX2, la GTX280 pareciera no ser tan poderosa como muestran sus specs. Probamos Crysis varias veces y los resultados se mantuvieron en el mismo rango; intentemos ver que pasa a más resolución.
Aunque el rendimiento de cualquier VGA es bastante errático en Crysis debido a lo exigente de su motor en todos los aspectos (CPU/Memoria/HDD), al aumentar la resolución a 1680×1050 podemos darnos cuenta que en los peaks la GTX280 logra diferenciarse de las otras opciones testeadas, aunque en terminos generales la experiencia de juego se ve bastante pareja entre las tres VGA NVIDIA. Quizás sea un tema de resoluciones y al jugar en monitores gigantescos notemos mayor diferencia, pero el hecho es que en una pantalla de 22″ LCD promedio los números que obtendrán ustedes serán los que ven arriba.
Call of Duty 4: Modern Warfare
Al cambiar de aplicación vemos que el patrón se repite: La GTX280 durante la mayoría de la acción se comporta muy parecida a la 9800GX2, separándose positivamente de ella en algunos peaks puntuales. Lo que ya podemos tener más o menos por seguro es que el rendimiento de la nueva tarjeta de NVIDIA sí es mayor al de su predecesora single GPU, la 9800GTX.
Nuevamente lo mismo: muy muy parecida a la 9800GX2; el equipo de arquitectos de hardware de NVIDIA creó un procesador gráfico que compite bastante bien e incluso supera a dos GPU G92. Más adelante veremos si esto justifica una compra, ya que como comprenderán el precio también entra a la licuadora de factores que deciden que opción es la mejor.
Bioshock
Aquí la situación se ve más favorable a la GTX280: Una línea que se mantiene en todo momento por encima de la curva de la 9800GX2 pareciera mostrar el poder de proceso que carga la arquitectura de NVIDIA. La diferencia de la que estamos hablando es de un 10 a un 15% contra la 9800GX2, que no es algo que nos deje babeando pero que no podemos dejar de mencionar.
Al pedirle al GPU que presente en pantalla más información, vemos que la GTX280 mantiene la tendencia anterior, ubicándose por encima de cualquier otra opción disponible en el mercado.
Company of Heroes
Rendimiento muy parejo para todas las tarjetas, pero la curva de la GTX280 es la que obtiene la victoria, siempre ubicándose por encima de cualquier otra VGA.
Acá se evidencia un poco más lo que describíamos arriba, teniendo la GTX280 un rendimiento superior (aunque no por mucho margen).
Need for Speed: Pro Street
Las cosas andan muy parejas al mirar las curvas de la GTX280 y la 9800GX2. La 9800GTX queda mucho más abajo y teniendo nula posibilidad de competir en rendimiento con alguna de las dos VGA recién nombradas.
Wow, aquí la 9800GX2 arrasa; quizás un muy buen soporte y escalada de rendimiento en modo SLI hacen que la 9800GX2 logre tan buenos números, pero lo cierto es que la GTX280 no logra mantenerse arriba de ella por ningún intervalo de tiempo.
Tomb Raider Anniversary
Y el último juego de nuestra plataforma de gaming en tiempo real mantiene las cosas sin mayores cambios. La GTX280 es la tarjeta más poderosa del mercado (aunque por una nariz contra la 9800GX2), ya que un chip de de ésta anda (marginalmente) mejor que un par de G92 bien aceitados para correr.
Sí, sí. Lo mismo de arriba; no merece más comentario que el ya realizado: Rinde bastante más que la anterior opción más poderosa en un sólo GPU, y solo un poco más que el sandwich dual que ya conocemos. El precio – el precio – el precio. Esos tres últimos factores serán muy importantes cuando emitamos nuestro veredicto.
Overclock
Una breve sesión jugando con RivaTuner nos dio los siguientes resultados sobre los iniciales 602/1107/1296Mhz:
Esas frecuencias significan un 7.97% de overclock para el GPU, un 17.43% para las memorias (nada de mal para ser una probada rápida) y un 15.74% para los shaders. Veamos como se traducen esos porcentajes en mejorar la experiencia de juego:
Como pueden ver, estamos hablando de mejoras que van desde lo imperceptible hasta casi un 20% sobre el rendimiento promedio inicial. Nada de mal, con paciencia se podrían lograr incrementos aún mayores.
Consumo Energético
Ya que vimos en las pruebas de rendimiento números bastante elevados para una tarjeta monoGPU, probemos con nuestro amperímetro como anda la GTX280 contra las otras tarjetas. Los datos de consumo presentados corresponden a consumo peak del sistema completo, durante una sesión de estrés de VGA.
Rendimiento similar a una tarjeta dual GPU aún sigue significando consumo similar a una tarjeta dual GPU, por mucho que estemos hablando de un solo procesador gráfico. La GTX280 consume prácticamente lo mismo que el sandwich de G92 y bastante más que la 9800GTX. 1,400 millones de transistores no están en vano: hay que alimentarlos con algo y el conector PCI-Express de 8 pines presente en la tarjeta acusa esta situación. Claro, me podrán decir que si le pongo una placa compatible con Hybrid Power el consumo en reposo baja a 0W… pero este es el review de la GTX280, no de la GTX280 y sus amigos. Nadie me puede obligar a comprar una placa madre para tener mejor manejo energético. No suena limpio.
Una breve mirada a CUDA: Codificando video con BadaBOOM
Como vieron en la sección de arquitectura, GT200 es un diseño de hardware que plantea un modo de funcionamiento GP-GPU desde su concepción. Aunque CUDA funciona en cualquier GPU desde G80 en adelante, es actualmente cuando hemos tenido acceso a muestras de software para evaluar las posibilidades del uso de una GPU para cálculos generales.
El software BadaBOOM, desarrollado por Elemental, nos permite codificar video desde y hacia distintos formatos, lo que es un proceso bastante trivial y conocido por ocupar intensivamente nuestro CPU. Pero, la diferencia de BadaBOOM con cualquier otro software de conversión de videos es que no ocupa intensivamente el CPU, sino que hace los cálculos en la GPU.
En este review utilizamos BadaBOOM para comprimir un video de 1280×720 pixeles (138MB de tamaño) y convertirlo al formato del iPhone utilizando el codec H.264. Como comparación realizamos el mismo proceso pero usando el software Cucusoft Video Converter, que cumple con la misma función pero procesando con el CPU.
BadaBOOM tiene la siguiente interface:
Los resultados que obtuvimos fueron estos:
Aquí vemos evidentemente que usando el GTX280 para transcodificar el video tardamos un 65% de lo que tardamos en realizar el mismo proceso pero usando el QX6850 para transcodificar. Se ve bastante impresionante, puesto que el QX6850 vale cerca de USD1,000, bastante más que la GTX280, lo que hace pensar en que si existieran reemplazos para muchas aplicaciones profesionales que son muy dependientes del CPU se podría realizar el mismo trabajo en mucho menos tiempo.
A la publicación de este review, NVIDIA está apoyando a muchos grupos de desarrolladores que están programando software para GPU mediante CUDA, donde podemos encontrar desde clientes de Folding@Home a programas profesionales de cálculo científico.
Comentarios Finales
Ok, vamos con los precios. NVIDIA sugiere un precio de 649 dólares americanos para la GTX280 y de 399 de los mismos para la GTX260. La primera (cuyos resultados vieron a través de las páginas de este análisis) tiene un precio mayor que la anterior tarjeta más-poderosa-del-mundo (la 9800GX2) que hoy podemos encontrar en e-tailers a 549 dólares o incluso menos.
Hay ciertas cosas que le tenemos que conceder a la firma de Satan Clara: Es una tarjeta de solo un núcleo (no dos como la 9800GX2), y además viene preparada «desde los genes» para operar con total desenvoltura como una GP-GPU. Eso es bueno, muy muy bueno si es que los desarrolladores le ponen el suficiente empeño a desarrollar aplicaciones o porteos de aplicaciones en CUDA (ya que todo este asunto de ocupar la GPU para cálculos se ve muy potente realmente) o si la gente de NVIDIA misma empieza a mostrar aplicaciones que nos hagan voltear miradas (ya que hasta el momento la agenda de NVIDIA ha sido poco transparente a la hora de mostrar que tan profundo están trabajando ellos mismos en software CUDA), pero por ahora suena sólo como una linda promesa. Ellos están firmemente convencidos de que el cálculo general con GPU va a tener un futuro deslumbrante, mostrando incluso una frontalidad en su discurso que a veces parece el guiño al momento justo de hacer un all-in sin saber que cartas tiene volteadas su oponente. Suenan bien, suenan confiados, pero necesitamos ver software de uso masivo en CUDA y pronto. Realmente nos interesa.
Peeeeero, por otra parte, también hay cosas que no se ven tan fantásticas como parecen. GTX200 es un núcleo de proceso gráfico que tiene el doble de transistores que un G92 clásico, pero que consume lo mismo que dos G92 y que rinde muy similar a dos G92. Es decir, su performance por watt es muy similar a la de G92, arquitectura que está dando vueltas hace un buen rato. La ventaja es que aquí podemos acceder al rendimiento puro y duro de esos 1,400 millones de transistores y no estamos sometidos a los caprichos del dios de los drivers como en el caso de una tarjeta dual GPU como la 9800GX2. Aún así, el salto de rendimiento que tenemos entre G92 y GTX200 no se compara a lo que vimos entre G71 y G80. Eso sí que fue impresionante (aunque el aumento en consumo también, no lo olvidemos).
Más datos importantes podremos obtener cuando en el corto plazo le pongamos las manos encima a una GTX260 y podamos saber que tan bien se ubica en su segmento de precio; lo mismo con la nueva familia de VGAs de AMD, que esperamos también tengan algo que decir tanto en rendimiento como en precio. Ahí se armará el panorama completo.
Por ahora la premisa sigue siendo: si quieres la más poderosa y también novedosa, GTX280 es tu opción. Si tienes más dinero aún y quieres agrandar papas y bebida yendo por SLI, te conviene la GTX280, siempre es mejor SLI que Quad SLI. (Dios los bendiga, drivers). Sólo recomendable para jugadores serios con un monitor grande.
–
–
Puedes dejar tus comentarios vía formulario en esta pagina, o profundizar en el foro.