Un poco de historia.
Me encanta empezar un párrafo con una fecha, así como en las crónicas históricas.
Mayo del 2004. En esa fecha, se lanzaba el core R423, que era una mejora sustancial respecto a los GPUs R3xx, pero que pesar de todo mantenía la misma arquitectura y las mismas características con respecto a manejo de DirectX 9.0a/b que la serie anterior. Claro, se doblaba el número de pipelines y se permitía el uso de GDDR3, al mismo tiempo que se hacía patente una optimización en el diseño, siendo estas tarjetas más eficientes que cualquier Radeon 9xxx, pero la arquitectura básica no cambiaba. En ese momento, la tarjeta tope era la X800XT PE, tarjeta que tuvo varios problemas, principalmente de yielding (con esto me refiero al rendimiento en la producción, es decir a la cantidad de GPU útiles y vendibles que se obtienen de una oblea base), para llegar al mercado, lo que causó que sus precios fueran muy elevados y su disponibilidad casi nula. Por suerte, al tiempo después el mercado se recompuso y la disponibilidad de estos modelos era algo mejor. Aunque, cuando sólo habían pasado unos meses desde el lanzamiento de R423, ATI volvía a remecer los bolsillos del comprador compulsivo al lanzar R480, que era una mejora de R423, con mejores yieldings y con clocks más altos. Este movimiento obedecía básicamente a que alrededor de todo el mundo, los reviews y los expertos indicaban que la línea 6xxx de Nvidia superaba, a veces con holgura, a su contraparte ATI.
Luego, ATI intentó jugar un distinto juego utilizando las mismas cartas (cosa que a veces uno está obligado a hacer en el póker, cuando no aparece el As que esperábamos), y aprovechando positivamente sus problemas de rendimiento en la producción de X800s, tomó esos GPU que funcionaban pero no tenían como poder rendir como una X800XT hecha y derecha, y seleccionó todos los que tenían al menos 8 pipelines buenos y aguantaban correr a 475MHz. Ahí agarró la marcadora de código de barras, creó un nuevo SKU y estábamos ante un nuevo producto más barato: la X800GT. Así y sucesivamente, fueron reutilizando los GPUs que no habían rendido como se esperaba y crearon más nuevas tarjetas: la X800GTO, y en el caso de Sapphire, la X800GTO2 (aunque ésta, más que usar cores que no rendían como se esperaba, usaba cores que habían sobrado de la producción anterior).
Detalles de la Tecnología
Más historia.
Julio, 2005. Agosto, 2005. Septiembre, 2005. Octubre, 2005. El tiempo pasaba y se emitían distintos comunicados retrasando el lanzamiento del R520. Cada vez se argumentaban distintas razones, hasta que al final, al iniciar el décimo mes del año 2005, se anunciaba el lanzamiento de la nueva serie, la serie X1800, que en su interior tiene el GPU R520 y que entra al mercado para competir con la ya aparecida hace meses línea 78xx de Nvidia. A pesar de la demora, ATI nos promete un producto espectacular, ya que debido al tiempo en que estuvo encerrada en sus laboratorios, los clocks con los que venía configurada eran bastante más altos de lo que se pensó inicialmente. Una de las grandes razones que se esgrimían para defender estas nuevas tarjetas era que su arquitectura era completamente nueva, y no basada en la generación anterior; lamentablemente los hechos demostraron que Nvidia con sus 7800 tenía una leve ventaja (y recordemos que en este mundo una leve ventaja es echada en cara como si se tratara de una diferencia abismal) y que los papeles y presentaciones que exhibía ATI estaban un poco inflados. A pesar de que los productos en cuestión eran muy poderosos, la demora en su lanzamiento hacía que uno se esperara un golpe directo al mentón, cosa que no ocurrió. La balanza del consumidor se inclinaba otra vez, ligeramente, por Nvidia.
Bueno, y gran parte de la tecnología que incluye la nueva serie X1900 ya venía presente en sus antecesoras 1800, así que no los lateo más con clases de historia nerd. Mejor analicemos la tabla de la página siguiente, donde podremos ver las especificaciones técnicas de las tres tarjetas en revisión:
Los fríos números, un paso al frente.
Tabla Comparativa |
|||
Radeon X850XT PE |
Radeon X1900XTX |
Radeon X1800 XT |
|
Vertex Pipelines |
6 |
8 |
8 |
Pixel Pipelines |
16 |
16 (48 PSP) |
16 |
Core Clock |
540 Mhz |
650 Mhz |
625 Mhz |
Fab. Technology |
130nm |
90nm |
90nm |
Memory Size |
256 MB |
512 MB |
512 MB |
Memory Interface |
256 bits |
256 bits |
256 bits |
Memory Frecuency |
1180 MHz |
1550 Mhz |
1500 MHz |
Bandwith |
32 GB/s |
49,6GB/s |
48 GB/s |
Pixel Fillrate |
8.6 Gpixels |
10,4 Gpixels |
10 Gpixels |
Texture Units |
6 |
16 |
16 |
Render Backends |
6 |
16 |
16 |
Z Compare Units |
6 |
16 |
16 |
Maximum Threads |
256 |
512 |
512 |
Adaptive AA |
No |
Si |
Si |
AVIVO Support |
No |
Si |
Si |
SM3.0 Support |
No |
Si |
Si |
HDR Support |
No |
Si |
Si |
Para partir, podemos ver que el proceso de fabricación se redujo de .13 micras a .09 micras; esto se refiere a la distancia mínima entre cada transistor del chip, e implica una disminución del calor generado. Esta disminución podemos aprovecharla también en otros aspectos, y uno de ellos es la posibilidad de aumentar las frecuencias. Un claro ejemplo de esto es el salto de 540Mhz en la X850XT PE a los 625Mhz de la X1800XT, y a los 650Mhz de la X1900XTX. Finalmente esto compensa la disminución en la generación de calor, ya que el aumento de frecuencias hace que la temperatura aumente. Entonces, en los hechos, a .13 y a .09 micras tenemos tarjetas igual de calentonas, pero con la diferencia de que a .09 ese calor lo están generando muchos más mhz.
Otra diferencia es en la interface de memoria, con esta nueva generación se introdujo el concepto de Ring Bus, lo que implica que las memorias tienen un canal doble de comunicación entre ellas y su controlador, lo que aumentaría la velocidad de transferencia de cada una al doble teórico. Además de esto, se trabaja con cuatro porciones de caché, las que se utilizan de la siguiente manera: cada una de las 4 Ring Stops del anillo está conectada a una pequeña porción de caché, y trabajan cuando alguno de los clientes necesita un dato que no se encuentra en la porción del caché determinada para el mismo, con lo que el controlador de memoria envía el pedido de datos a través del Ring Bus al Ring Stop asociado a la porción de memoria física de la cual el cliente requiere el dato. Luego de esta parada, se envía el dato a través del Ring Bus hacia la parada asociada al cliente que solicitó el dato y se almacena en el caché del Ring Stop más cercano a ese cliente.
Detalle de cómo trabaja el Ring bus (Click para ver en detalle)
Una mejora sustancial respecto de la antigua generación, es la capacidad de trabajar con precisión de Punto Flotante de 32 bits; antes, la serie X800 operaba con FP24 lo que impedía el soporte de SM3.0, a diferencia de sus contemporáneas de nVIDIA. Entonces, gracias a la incorporación de FP32, ATI a partir de la serie X1800 soporta SM3.0, lo que implica Pixel y Vertex Shaders 3.0, que en conjunto con la capacidad de soportar por completo Directx9.0c otorgan una mejora notable en la calidad de imagen. Respecto a ese tema, ATI ha promulgado que su implementación del SM3.0 es de manera «correcta», de acuerdo a lo que Microsoft tenía estipulado con respecto al SM3.0.
Gracias a que la serie x1800 (y por consiguiente la x1900) trabaja a FP32 en todo el pipeline, puede trabajar con HDR (High Dynamic Range) en modo FP32, esto es a la par de la Serie 7X00 de nVidia, pero la diferencia radica en que nVidia no puede trabajar con HDR modo FP32 y AA activado en cualquier modo. Como ejemplo les dejamos con una imagen del Demo ToyShop en donde se pueden apreciar el trabajo del HDR y los Filtros al máximo. Además en este demo, se utiliza la tecnología de Parallax Occlusion Mapping en todo su esplendor, la cual permite añadir detalles 3D a una superficie completamente plana.
Continuación de la Tecnología
Otra mejora es la forma en que trabajan los Vertex Shaders de la Nueva Gama de tarjetas, basados en la Eficiencia, Creo haber oído es antes no?. Una parte de esa eficiencia es el Ring Bus en el controlador de la memoria, la otra parte en el proceso de Renderizado. Como pueden observar en la figura de abajo en el costado izquierdo se encuentra la Unidad de control de buffer Z, esta unidad se encuentra dividida en «Hierarchical Z» y «Stencil Buffer Cache» quienes son las encargadas de manejar aquellos polígonos que serán almacenados para luego ser mostrados en el momento indicado, esta unidad tiene un compresor y descompresor que permite un mayor almacenamiento de estos datos «Z» (conocida como «Hyper-Z» en ATI) para luego volver a la unidad central de Rasterización.
Arquitectura Interna R480 (izquierda), R520 (medio) y R580 (derecha)
Asimismo podemos observar en el centro de la R580 (derecha) los 12 Quad Pixel Shader Cores, Los 12 procesadores de Pixel Shaders son cuádruples, lo que indica que cada procesador trabaja con 4 Pipelines internos y se encuentran interconectados todos con este bus interno, formando un total de 48 Pixel Pipelines separados en 12 unidades independientes, el «Dispatch Processor«, es el encargado de dividir las tareas y enviarlas a través del bus a cada unidad de Pixel Shader, es aquí donde ATI hace mención a la eficiencia, la denominación de «Ultra-Threaded» viene exclusivamente de la forma en que esta conformada la conexión entre los 12 Quad Pixel Shaders, el Dispatch Processor y el sistema de Memoria.
La arquitectura interna de cada pixel Quad Core es la que se muestra a continuación.
R480 (izquierda), R520/R580 (derecha). Pinchen para agrandar
Otra de las novedades de esta familia es que implementa el Adaptive AntiAliasing, lo que es claramente una respuesta al Transparent Antialiasing de nVidia, la diferencia con respecto al Transparent Antialiasing de Nvidia es que el Adaptive AA realiza un SuperSampling AA a las partes con Transparencias y un MultiSampling al Resto de la escena, en cambio la solución de nVidia realiza un SuperSampling o un MultiSampling a Pantalla Completa. Una muestra de ello lo podemos ver en el siguiente Paper.
Otra cosa que mejoró en la nueva serie X1K, es el Filtrado Anisotrópico, el cual ha sido mejorado al igual que el Antialiasing, de forma tal que el filtro es implementado pixel por pixel, con ello hacen que al variar el ángulo de visión la imágen cambie de aspecto de acuerdo a como uno realmente ve las cosas.
Como se pueden fijar en la imágen de arriba (izquierda) muestra los puntos de una circunferencia (360º) en donde los Filtros son aplicados y la forma como se ve la imágen. En el caso de nVidia las puntas indican mal aplicación de Filtros lo que conlleva a que la imágen se vea borrosa, las hendiduras son el punto en donde el Filtro se aplica de buena forma y la imágen se ve nítida. En el caso de ATI las puntas o las hendiduras no son tan marcadas, lo que se traduce en una aplicación de Filtros de mejor manera y en una imágen mejor vista.
No podemos dejar fuera su más nueva tecnología, el Fetch4 el cual consiste en una nueva técnica de Muestreo de Texturas, la cual trabaja explotando el hecho de que la mayoría de las texturas están compuestas de valores del color, cada uno consistente en 4 componentes (rojo, verde, azul, y alfa o transparencia). Las unidades de la textura se diseñan para muestrear y filtrar los cuatro componentes a partir de una textura simultáneamente. Sin embargo, al mirar encima de diversos tipos de texturas con valores del solo-componente (tales como mapas de sombreado), Fetch4 permite que cuatro valores de direcciones adyacentes sean muestreados simultáneamente. Esto aumenta con eficacia la tasa del muestreo de la textura en un factor de 4.
Para concluir con las nuevas mejoras en la Serie X1K de ATI, es el conocido AVIVO, el nuevo motor de Rendereo de Video el que mejora la codificación y decodificación de video, trabaja con los nuevos estándares incluyendo el H.264 y procesa con una calidad de 10bits, asimismo realiza trabajo de corrección de Gamma y Brillo de la imagen en tiempo real. La gracia de este formato es que utiliza el poder de la GPU para aliviar la carga del Procesador en el momento de la decodificación y de la codificación.
Como ven la imagen mejora (eso se ve en las fotitos mostradas), pero ya tendremos tiempo y los sorprenderemos con un análisis profundo de esta nueva tecnología. Cuanto hay de cierto y cuanto hay de marketing es lo que podrán analizar con nosotros si tienen paciencia y esperan hasta nuestra próxima entrega.
Hora de ensuciarse las manos
Dejémonos de teoría. Es hora de tomar en nuestras manos las tarjetas y comenzar a testear. Los gráficos dirán lo que haya que decir y ustedes podrán sacar sus propias conclusiones.
Pero antes revisemos como son las tarjetas y su instalación.
Como pueden ver, con el tiempo los PCB de las tarjetas van creciendo desmesuradamente; no quiero ni pensar en el tamaño que tendrá el R700 cuando salga al mercado en un par de años más. A primera vista vemos que el PCB es muy pero muy similar al de la X1800XT512; una diferencia básica sería que este nuevo modelo incluye dos nuevas fases más de poder.
La tarjeta mide casi exactamente una cuarta.
Una fotito del Core R580, si lo desean ver más de cerca hagan click en la imágen.
Las memorias de la X1900XTX, como se puede apreciar (lamentamos poca claridad de la imágen) son las Samsung de 1.1ns, lo cual nos depara un buen márgen de overclock.
Aquí tenemos una vista aérea de New Jersey, perdón, del PCB de la X1900XTX
Instalación
Como ustedes habrán podido experimentar cuando sacan su tarjeta de video frecuentemente para que no se le junte polvo, la instalación de una tarjeta de este tipo no es demasiado complicada. No debemos olvidar enchufar nuestro conector de energía PCI-E.
Una vez que tenemos inserta la tarjeta en el slot, y enchufado el conector PCI-E, al dar una mirada al borde inferior interno podemos ver que la tarjeta casi roza el ventilador del chipset, así como también en su largo llega casi hasta el mismísimo borde de la placa madre.
Ya tenemos todo instalado, y procedemos a conectar nuestro adaptador DVi-VGA (A menos que seamos uno de los pocos con monitor digital que andan por ahí). En la imagen podemos ver el uso de los dos slot por parte de la tarjeta.
De todas maneras, esta solución de refrigeración se justifica plenamente, ya que la tarjeta se calienta bastante, y la chica que aparece en el cooler se pone muy caliente.
Si ponemos la mano por el lugar desde donde se expulsa el aire, sentimos que realmente la turbina hace bien su trabajo.
Vamos ahora a analizar nuestra plataforma de pruebas y los métodos que utilizaremos para testear las tarjetas.
Plataforma de Pruebas
Hardware
Athlon 64 3200+ enfriado con un Thermalright XP-120 + Thermaltake a1973
OCZ VX 4000 2×512 Mb
DFI Lanparty Nforce4 Ultra-D
OCZ Modstream 450W
Western Digital 120 Gb SATA II
ViewSonic E90f +SB
X850XT PE 256MB
X1800XT 512MB
X1900XTX 512MB
Software
Windows XP SP2
ATI CCC 6.1
3DMark03
3DMark05
3DMark06
Quake 4
Half Life 2: Lost Coast
F.E.A.R.
Need for Speed: Most Wanted
Call of Duty 2
Métodos de prueba
En primer lugar, escogimos trabajar con el procesador a velocidad stock ya que hemos demostrado en análisis anteriores que al testear a detalles altos en juegos los resultados son afectados casi nulamente por la velocidad del procesador. Los resultados entre testear a 2000Mhz o 2500Mhz son casi los mismos. Las resoluciones a ocupar serán 1024×768, 1280×1024 (1280×960 en el caso de F.E.A.R) y 1600×1200. No trabajamos a resoluciones más altas (2048×1536) ya que nuestra plataforma aún no dispone de un monitor con esas características, además de que ninguna tarjeta gráfica hoy en día es capaz de funcionar sin altibajos a una resolución de ese tipo trabajando con filtros y detalles al máximo.
Respecto a los juegos, utilizamos un demo propio de Quake4, en modalidad timedemo, rescatando los resultados entregados por el propio timedemo. En el caso de HL2: Lost Coast, trabajamos también con un demo propio en modalidad timedemo, pero capturando los resultados mediante FRAPS. F.E.A.R incluye una opción de benchmarking propia, la cual incorpora cálculos físicos, a diferencia de los otros métodos de prueba. En Need For Speed Most Wanted el método fue correr una carrera siguiendo el mismo camino, midiendo con FRAPS en tiempo real y obteniendo un resultado promedio de tres mediciones. Lo mismo hicimos con Call of Duty 2, que constaba de un sistema de timedemos bastante errático, entregando resultados que variaban mucho de medición a medición. Aquí, jugamos siguiendo el mismo camino varias veces, lo cual era facilitado en gran medida por la gran cantidad de scripting de este título, lo que hacía que en varias corridas incluso los disparos que nos impactaban fueran los mismos.
Resultados a las Pruebas
Suite Futuremark
No incluimos resultados de la X850XT PE y de la X1800XT en la prueba 3DMARK06 debido a que esta aplicación todavía no aparecía cuando realizamos las pruebas en las tarjetas antes mencionadas.
Halflife 2: Lost Coast
Aquí podemos ver que cuando no ocupamos resoluciones muy altas ni filtros activados, las tres tarjetas rinden muy parejo. Esto probablemente se deba a que el engine del juego limite el rendimiento de las VGA. Los FPS mínimos y máximos también se mantienen relativamente parejos, así definitivamente hay factores extra-VGA que entran a jugar en esta prueba. Al aumentar la resolución la cosa varía un poco pero la tendencia se mantiene; es cuando aplicamos filtros a full y posteriormente HDR que la cosa cambia, haciendo casi imposible el trabajo con la X850XT PE y teniendo resultados muy bajos con las dos tarjetas restantes. Los filtros, de todas maneras no impactan demasiado a las tarjetas, notándose esto sobretodo en la X1900XTX. Definitivamente lo que más afecta el rendimiento de la tarjeta es el uso de HDR, donde las bajadas de FPS son drásticas.
Quake 4
En Quake4, extrañamente la X1800XT obtuvo resultados mucho mejores que la X1900XT. Esto podría deberse a los drivers que optimizan el rendimiento en aplicaciones OpenGL en las tarjetas anteriores, sin aumentar el rendimiento en la serie 1900. De todas maneras, podemos notar que el uso de filtros al máximo no ataca tan agresivamente el rendimiento de la tarjeta como lo hace el incrementar la resolución.
F.E.A.R.
Al benchear F.E.A.R. nos damos cuenta de que el motor de este juego no est