Posteamelo

NVIDIA el lunes 17 reveló los detalles oficiales de la arquitectura de “Fermi” o GF100, la cual vendrá a reclamar el trono del rendimiento gráfico frente a la arquitectura de las Radeon HD 5800 basadas en el núcleo de Cypress, en el siguiente artículo técnico desmenuzamos ambas arquitecturas para que te enteres detalladamente que nos ofrecerá NVIDIA con Fermi frente a lo que ya ofrece AMD. Si bien son arquitecturas distintas y no comparables en términos numéricos, si nos sirve para darnos una idea de lo que nos ofrecen ambos bandos. Lectura recomendada. NVIDIA está ultimando los detalles para lanzar su próxima arquitectura gráfica, que dará vida y fuerza a las tarjetas GeForce GF100, esta arquitectura también conocida como “Fermi”, será la primera en brindar soporte nativo para DirectX 11 por parte de NVIDIA y según hemos visto pretende dar un salta tanto cualitativo como cuantitativo respecto a la arquitectura actual (al menos eso insinúa en el papel), y de paso poder reclamar nuevamente el trono en el rendimiento gráfico arrebatado indiscutiblemente por AMD y las ATI Radeon HD 5800 series. Describir una arquitectura es un asunto complejo, sobre todo si es una arquitectura gráfica, que es mucho más difícil de analizar que la arquitectura de un procesador por ejemplo, esto debido a que una GPU en cuanto a componentes es mucho más compleja que una CPU, debido a que tenemos asuntos altamente técnicos que no son sencillas de explicar y entender, pero como siempre haremos el esfuerzo de explicárles lo más claramente posible para que puedan entender desde ya que nos traerá “Fermi” entre sus entrañas. Como mencionamos al inicio, las mejoras por parte de NVIDIA vienen tanto en el aspecto cuantitativo, por cuanto la cantidad de componentes se ha elevado en un gran porcentaje y también en el aspecto cualitativo agregando nuevas tecnologías como el soporte DirectX 11, mejoras en el tratamiento geométrico y también en el apartado visual y de calidad de imagen, el rendimiento en computo de propósito general también tiene inexorablemente un incremento sustancial (aunque no hay números por ahora) Vemos en las siguientes paginas que nos ofrece Fermi, y de bonus agregamos lo que ya nos ofrecen las ATI Radeon HD 5800s en cuanto a arquitecturas. Fermi: Especificaciones generales Antes de entrar de lleno en la arquitectura y para tener un punto de comparación con las arquitecturas actuales tanto de NVIDIA como ATI veremos la siguiente tabla, para ir dimensionando y palpando lo que nos entregará NVIDIA con “Fermi” respecto a las otras arquitecturas. Como puedes ver en la tabla de especificaciones, comparando la arquitectura actual de NVIDIA, el aspecto cuantitativo salta a la vista, de partida NVIDIA ha incrementado el número de procesadores shader o los “CUDA Cores” como les llama NVIDIA, debido a su versatilidad más haya de calcular “shaders”, sino que también como núcleos para cálculos de propósito general; bueno volviendo al tema, en este sentido “Fermi” tendrá un incremento del nada menos que un 115% pasando desde los 240 SP de la arquitectura del GT200 (GeForce GTX) a 512 “CUDA Cores”. (ya veremos como se organizan estos). Otro cambio cuantitativo importante y estrechamente relacionado con la cantidad de núcleos es la escalofriante cantidad de transistores que traerá Fermi, son nada menos que 3.200 millones de transistores, comparado con los 1.400 millones del GT200 y los 2.154 millones de Cypress (Radeon HD 5800), sin duda este incremento en el numero de transistores va acorde con los cambios que se han hecho en la arquitectura como el ya mencionado incremento en los CUDA Cores y como podemos ver en la tabla, las unidades ROPs (que se incrementan a 48) entre otros cambios en el motor de operaciones geométricas que veremos más adelante. GDDR5: Finalmente NVIDIA ha hecho el paso inexorable a memorias GDDR5, hasta la generación actual GeForce GTX 200 series (GT200) NVIDIA se había mantenido firme exprimiendo chips GDDR3, dándole en realidad poca relevancia al real beneficio de memorias GDDR5, algo que AMD viene ya usando desde hace dos generaciones gráficas RV790 (Radeon HD 4800) y Cypress (ATI Radeon HD 5800), ahora sólo falta ver a que velocidades fijará NVIDIA los chips GDDR5 de Fermi. Quizás el único aspecto que llamara la atención es que NVIDIA utilizará una interfaz de memoria de 384-bit en lugar de los 512-bit de la generación actual. Esto básicamente se da por que Fermi incorpora sólo seis controladores de memoria de 64-bit, en lugar de los 8 del GT200, así: 6*64-bit= 384-bit, además el uso de memorias GDDR5 debería compensar esta disminución con sus altas frecuencias. 40nm by TSMC: Otro paso importantes que ha hecho NVIDIA para estar a la par con ATI, además de migrar a memorias GDDR5 y incorporar soporte nativo para DirectX 11, es utilizar un ya probado proceso de manufactura de 40nm, decimos ya probado porque su proveedor es TSMC (Taiwan Semiconductor Manufacturing Corporation), es el mismo que provee a AMD para sus Radeon HD 4000/5000 series y fue sabido los problemas que tuvo el gigante taiwanés para poder tener un buen rendimiento en la producción de silicio a 40nm, eso produjo una escasez de Radeon HD 4770 en su momento, pero TSMC ha mejorado los Yield y puede ya satisfacer sin problemas tanto a ATI como NVIDIA con nodos productivos a 40nm, el núcleo de Fermi (GF100) por lo tanto, estará fabricado en 40nm con los beneficios que ya hemos mencionado reiteradamente. Comenzamos a desmenuzar la arquitectura de Fermi, en la siguiente imagen pueden ver el diseño general de Fermi, como así también una descripción de sus principales componentes, esto comparado con la arquitectura actual de NVIDIA (GT200), desde ya podrán ver que la nueva arquitectura a pesar de ser más compleja, tener muchos más componentes, está organizada de manera modular lo que la hace ver bastante ordenada en la ubicación y organización de sus componentes. GF100 (Fermi) GeForce GTX 280 (GT200) La arquitectura de Fermi NVIDIA la ha organizado de la siguiente manera: en primer lugar el GF100 se compone como ya mencionamos de 512 CUDA Cores (SP), cada uno de estos 512 procesadores están organizados en 4 bloques individuales llamados Streaming Multiprocessors (SM), los cuales contienen 32 CUDA Cores, al mismo tiempo cada uno de estos SM está contenido en cuatro grandes bloques llamados GPC (Graphics Processing Cluster), exactamente lo que se muetra en la siguiente imagen. Así que la ecuación para calcular los CUDA Cores es bien simple: 32 SP * 4 Streaming Multiprocessors * 4 Graphics Processing Clusters = 512 CUDA Cores. Simplificado: 32×4x4 = 512 Fermi: Streaming Multiprocessors (SM): Ahora usaremos el microscopio para hacer un zoom en estos bloques o matrices que en su total suman 16 conteniendo en su interior 32 Cuda Cores, esto nos simplifica la ecuación anterior a 16SM*32SP=512CC, pero como veremos en la siguiente imagen hay otros componentes dentro de cada uno de estos bloques. Como podemos ver (si amplían la imagen) en este bloque (16 en total) existen 32 CUDA (cuatro veces lo que ofrece el GT200), cada uno de estos procesadores posee su propia unidad de cálculos de punto flotante (FP Unit) y una unidad de calculo de enteros (INT Unit), especiales para cómputos de propósito general y cálculos matemáticos altamente complejos. En cada bloque de Streaming Multiprocessors, encontramos otros elementos como las 4 unidades de textura, el “Raster Engine”, y un elemento bien importante como el “PolyMorph Engine” que luego detallaremos. El diseño general de la arquitectura, NVIDIA dividió en cuatro grandes grupos llamados GPC (Graphics Processing Cluster), en lugar de uno solo como en la generación actual, metafóricamente hablando el GF100 es como una GPU Quad-Core con sus componentes organizados de tal forma que puedan tener la eficiencia y potencia necesaria para tareas de cómputo altamente demandantes, como geometría compleja en gráficos 3D y para eso incorpora renovadas unidades especializadas para el calculo geometrico. El GF100 puede manejar shader complejos en aplicaciones altamente demandantes (como los juegos 3D), con suficiente potencia para manejar otras tareas GPGPU a través de los juegos o aplicaciones especificas, como por ejemplo simulaciones físicas vía PhysX, procesado de la IA (Inteligencia Artificial) e incluso avanzadas tecnologías de post-processing como depth-of-field (profundidad de campo), NVIDIA Surround / 3D Vision Surround, rasterizacion etc, nuevos niveles de filtrado etc. Por otra parte la arquitectura del GF100 soporta tecnologías como CUDA, PhysX, DirectCompute y OpenCL, permitiendo a los desarrolladores programar más que gráficos en sus aplicaciones. Fermi: Arquitectura de Cache: Una de las principales características de las tarjetas actuales, es el nivel de paralelismo (ejecutar múltiples instrucciones al mismo tiempo) y sus capacidades gráficas, estas características están apoyada por la memoria cache en sus distintos niveles, que ayudan a administrar el trafico e instrucciones de datos, sean estos de computo o de gráficos, es un rol importante que siempre queda relegado a un papel secundario. 16/48 of Shared Memory: En la imagen siguiente ustedes pueden ver una ampliación del layout de la memoria y el cache, que se ubica justo debajo del bloque de Shader processors (CUDA Cores) en cada Streaming Multiprocessors (SM), para que lo entendamos debemos saber que cada SM tiene 64KB de cache compartido y programable, el cual puede ser configurado de dos formas: (1) Dejar 48KB como memoria cache compartida y otros 16KB como cache L1; y (2) Dejar 16KB como memoria cache compartida y otros 48KB como cache L1. Lo anterior es x3 veces lo que ofrece el GT200 (sólo 16KB), de aquí se denota la indicación de NVIDIA de “16/48 of Shared Memory”, su beneficio según NVIDIA es tener mas datos reusable entre los threads. De la misma forma anterior el GF100 también puede destinar 16 o 48KB de cache L1 dedicado, lo que el GT200 carece, esto permite una mayor eficiencia en tareas como físicas (Physics) y operaciones de Ray Tracing. Finalmente tenemos el cache L2 el cual se incrementa desde los 256KB a 768KB, pero a diferencia del GT200 donde este cache solo permite lectura en el GF100 este opera en lectura/escritura, esto permite mejorar el rendimiento para texturas y de computo. Con el cache L2 incrementado, NVIDIA puede por ejemplo mantener la mayoría de las funciones de renderizado de datos como la teselación (tessellation), sombreado (shading) y rasterizacion (rasterizing) en el mismo cache, en lugar de mover estos datos a la memoria o framebuffer (DRAM), esto beneficia el ancho de banda y alivia los cuellos de botella (bottlenecks) de la memoria, que ocurren por ejemplo cuando hay múltiples operaciones de lectura/escritura hacia el framebuffer. Comparando el GeForce GF100 con la generación previa de NVIDIA, la arquitectura de cache del GT200 es inferior en varios aspectos, dede funciones hasta capacidad del cache, por ejemplo el GT200 sólo usa cache para texturas y posee cache L2 de solo lectura, en cambio el GF100 es reescribible y puede almacenar cualquier datos como vertexs, texturas, ROPS etc. Ahora comparado con las Radeon HD 5800 series, ATI vacía toda la información a la memoria o framebuffer y luego los devuelve a los núcleos (stream processors) para el proceso de resterizacion de salida, esto causa una baja en la eficiencia y rendimiento, en cambio NVIDIA mantiene todos estos datos en el cache evitando así latencias en las memorias para estos procesos. Esto trae como beneficio para el usuario final básicamente una mejor eficiencia en el sistema de memorias, ya que ocupamos menos ancho de banda debido a que las peticiones de lectura/escritura se mantienen en el cache, esto beneficiará al GF100 por ejemplo a altas resoluciones, con filtrados de imágenes de alta calidad, donde el framebuffer puede ser fácilmente saturado. Fermi: Raster Engine & PolyMorph Engine: Uno de los cambios importantes hechos por NVIDIA en el diseño interno de la arquitectura del GF100, no solo ha sido mejorar el rendimiento de computo incrementando en un 115% el numero de procesadores, el aspecto geométrico de toda índole es una de las mejoras que NVIDIA mas ha enfatizado con la nueva arquitectura, según la compañía este rendimiento se ha incrementado x8 veces respecto a la generación previa (GT200), esto gracias a nuevos y mejorados motores los cuales ha sido reubicados para un mejor rendimiento, la calidad de imagen es algo en lo que tambien enfatiza NVIDIA, el rendimiento en tareas de calculos de físicas (PhysX) En efecto si comparamos la arquitectura de la GeForce GTX basadas en el núcleo GT200, la cual analizamos en su momento veremos que NVIDIA ha movido los motores gráficos o geométricos a un lugar mucho más cercano a los CUDA Cores, esto materializado en los nuevos motores “Raster Engine” y el “PolyMorph Engine” que en lugar de estar en la periferia de la arquitectura como en el GT200 ahora están en cada Streaming multiprocessors (SM) y Graphics Processing Cluster (GPC) respectivamente. Para que quede más claro observen la siguiente imagen: Como podemos ver en la imagen precedente cada GPC tiene su propio “Raster Engine” (4 en total) y cada uno de los 16 SM posee su propio motor PolyMorph Engine (16 en total), de esta manera NVIDIA distribuye y balancea de mejor forma la carga geométrica para un rendimiento más balanceado y eficiente. Esto según la compañía provee un renderizado secuencial más fluido e incrementa el rendimiento geométrico en el tratamiento de pixel/shader/vertex por 8 veces, respecto a lo que ofrece por ejemplo el engine geométrico del GT200. PolyMorph Engine: Dentro de los dos nuevos motores o unidades de ejecución, el más importante o al que se le ha dado mayor relevancia NVIDIA es al “PolyMorph Engine”, que es el motor que administra el apartado geométrico del GF100, el PolyMorph Engine es el responsable de manejar asuntos como Vertex Fetch, Tessellation, Viewport Transform, Attribute Setup y Stream Output, es justamente aquí donde esta ubicado la unidad de teselacion, uno de los grandes cambios que DirectX 11 trajo y que ATI tanto enfatizo con sus Radeon HD 5800 series. Como ya mencionamosel GF100 trae 16 de estos motores, uno asignado a cada Graphics Processing Cluster (GPC) por lo que están muy relacionados con los CUDA Cores, también son 16 las unidades de teselacion, en comparación con el GF200 que no traía unidades dedicadas para teselacion. Este motor por lo tanto es clave para las tareas de teselación del GF100 y que le permitirá además tener la potencia y aceleración por hardware necesaria para los efectos de teselación que se puede lograr con DirectX 11. Raster Engine: Sin muchas novedades y opacado por el PolyMorph Engine, el Raster Engine también han sido movidos más cerca de los CUDA Cores, pero de manera más general y compartida, puesto que el GF100 posee cuatro de estos motores uno asignado a cada bloque Graphics Processing Cluster (GPC). En el GT200 por ejemplo, había una solo bloque para estas operaciones o Raster Engine. Como pueden apreciar en la imagen, cada Raster Engine posee las unidades relacionadas con operaciones de rasterización, proceso por el cual una imagen en formato vectorial se convierte en un conjunto de pixeles y punto que son desplegados en pantalla. El raster Engine recibe y transforma los datos enviados desde el PolyMorph Engine. NVIDIA se ha tomado bastante enserio el asunto de tratamiento geométrico, no por nada mencionan que Fermi es x8 veces más potente gráficamente que la actual generación de tarjetas gráficas basadas en el GT200, posiblemente también tenga una mayor potencia grafica que las Radeon HD 5800, por que como podrán ver mas adelante en este articulo técnico en la sección correspondiente a la arquitectura de las Radeon HD 5800s, NVIDIA ha incorporado nada menos que 16 unidades para teselacion, mientras la arquitectura de las Radeon HD 5800 (Cypress) incorpora solo una unidad dentro del “Graphics Engine”, pero no nos adelantemos, ya que como mencione al inicio son arquitecturas diferentes y no comparables número a número Fermi: NVIDIA Surround / 3D Vision Surround Estas dos tecnologías son los “eye candy” que trae Fermi con el núcleo GF100, son en parte la respuesta a la tecnología multi-display ATI Eyefinity, conservando las proporciones pues el soporte de NVIDIA en cuanto a monitores se queda un poco atrás respecto a la apuesta de ATI además exigen necesariamente más de 1 tarjeta gráfica. NVIDIA Surround: Esta tecnología en realidad es un intento de tener una respuesta a ATI Eyefinity, pero al parecer NVIDIA se ha quedado algo corto, pues NVIDIA Sorround, tal como se muestra en la imagen permite administrar independientemente 3 monitores los cuales deben ser alimentados por una configuración SLI, si correcto debes usar a lo menos 2 tarjetas para alimentar 3 monitores al mismo tiempo, lo bueno es que la tecnología no es exclusiva de “Fermi”, ya que será retro-compatible con las GeForce GTX 200 series. Esta tecnología puede administrar hasta 3 monitores con una resolución de 2560×1600 pixeles, nada que en lo personal me impresione mucho, puesto que la apuesta de ATI me parece mucho más versátil, pues con un sola tarjeta puedes hacer eso y más y alcanzar resoluciones mucho más altas. La razón del porque una configuración SLI es necesaria es por que tanto las GeForce GTX 200 series y las GF100 solo pueden tener activos un par de monitores al mismo tiempo, además para administrar resoluciones altas, necesitamos mucho poder, pero esto mas parece una escusa por que se supone que Fermi debería tener suficiente potencia para esto. 3D Vision Surround: Básicamente lo que pretende NVIDIA con esta técnica es sumergirnos en juegos en 3D, agregando visualización estereoscópica, para esto necesitamos lógicamente el KIT NVIDIA 3D Vision, un monitor con una frecuencia de refresco de 120Hz, esto funciona además en conjunto con NVIDIA Surround y por ende exige lo mismo, configuración SLI de GeForce GTX 200 o GF100. Fermi: Documentación Oficial Si quedaron con gusto a poco luego de leer las páginas anteriores, cosa que dudamos, les dejamos la documentación técnica oficial que proporcionó NVIDIA respecto a las novedades de Fermi, la calidad de imagen y filtrado fue uno de los asuntos que no alcanzamos a detallar, pero dejamos los documentos oficiales para que ustedes mismos puedan echar un vistazo. Hay también gráficos de rendimiento, pero como siempre hay que tomarlos con una cuota de escepticismo y no confiarnos hasta ver pruebas de rendimiento reales. GF100 Processor Architecture I GF100 Processor Architecture II GF100 Compute For Gaming GF100 Image Quality NVIDIA Fermi Whitepaper (PDF) Con esto finalizamos el apartado técnico referente a “Fermi” Fuente Madboxpc

NVIDIA GeForce GF100 “Fermi” detalles oficiales

Dejá tu comentario

Autor del Post