Posteamelo

Los chips que gobiernan nuestros PCs no dejan de progresar. Cada vez son más rápidos y sofisticados, pero su capacidad de disipación de calor y consumo no dejan de reducirse. Buenas noticias. Echemos un vistazo a lo último de Intel y AMD. De momento, en este artículo dedicado a los cerebros de nuestros equipos, las protagonistas siguen siendo las CPUs con arquitectura x86. Los microprocesadores de Intel y AMD llevan años compitiendo por ser los mejores en esta arquitectura, desde los tiempos de los primeros 80286, pasando por los Pentium, los Athlon 64, los Core y los Phenom, hasta llegar al presente, con los Ivy Bridge de Intel y los Fusion y Trinity de AMD. En cualquier caso, hoy más que nunca también es necesario prestar atención a otras formas de abordar el procesamiento de las instrucciones, los datos y los programas, distintos a las habituales con x86. Una arquitectura viene definida por el conjunto de instrucciones que es capaz de descodificar, así como por las jerarquías que intervienen en las unidades de predicción de las secuencias de instrucciones, o las jerarquías de memorias caché, etcétera. Hasta ahora, la arquitectura x86 era óptima y permitía obtener incrementos espectaculares en el rendimiento con cada nueva generación tecnológica. Pero hay dos tendencias que «pisan fuerte»: por un lado, la arquitectura ARM, que empezó con su integración generalizada en móviles y luego en tabletas, con las miras puestas en los ordenadores portátiles. Y, por otro, las arquitecturas que se centran en el paralelismo masivo, como las tarjetas gráficas de NVIDIA o AMD, o, incluso, las MIC de Intel, aunque esta última está basada en paralelismo a partir de decenas de procesadores x86 simples. Los ordenadores portátiles se están beneficiando mucho de las mejoras introducidas en los más recientes microprocesadores en materia de consumo y disipación de calor ILP y TLP El paralelismo es clave para obtener mejoras en el rendimiento. El modelo tradicional basado en incrementos de la frecuencia de reloj junto con optimizaciones de la arquitectura ha llegado a un punto a partir del cual las mejoras en rendimiento son lentas. De hecho, la frecuencia de reloj de los microprocesadores se ha estancado en torno a los 3,5 GHz, en sus valores máximos. Un programa es una secuencia de instrucciones, de modo que lo que se ha buscado en la arquitectura x86 durante los últimos años ha sido maximizar el paralelismo a nivel de instrucciones (ILP o Instruction Level Parallelism). Es decir, descodificar varias simultáneamente en el cauce de ejecución (pipeline) del procesador al ritmo que marca la frecuencia de reloj. Para ello integra mecanismos como las unidades de predicción, que adivinan qué instrucciones se van a ejecutar, las lee desde la memoria y las preprocesa con la esperanza de que el orden sea correcto. Las memorias caché almacenan en sus celdas superrápidas los datos que previsiblemente se vayan a usar, trayéndolos de la memoria principal antes de que se necesiten. Por otro lado, ahora se tiende a tener varios núcleos en un mismo chip para aprovechar el paralelismo a nivel de hilos de ejecución (TLP o Thread Level Parallelism). Se depende de que el programa o el sistema operativo sepan cómo lanzar estos threads (hilos de ejecución). De todos modos, el número de núcleos en un chip, con arquitecturas x86 complejas, no puede ser (de momento) muy elevado. Las unidades de predicción, las memorias caché, etcétera, ocupan mucho silicio. Las herramientas de análisis que empleamos en nuestro Laboratorio nos permiten discriminar con precisión el consumo de los núcleos de la CPU y la lógica gráfica Podría abordarse la aproximación contraria: reducir la complejidad de cada unidad de procesamiento y aumentar su número. Pero si nos encontramos con un programa que no está paralelizado, seguirá enviando instrucciones de forma secuencial que tardarán una eternidad en procesarse en estas unidades de ejecución simples. Un ejemplo de esa eternidad está en los procesadores Atom. Prueba a ejecutar el test Cinebench en un netbook y verás lo que es eternizarse de verdad. De todos modos, si el programa está pensado para procesarse en paralelo mediante el lanzamiento de cientos o miles de hilos de ejecución, esta aproximación sí tendría sentido. Es la que adoptan NVIDIA y AMD en sus tarjetas gráficas, que ahora empiezan a usarse como procesadores de propósito general o GPGPU. Estas tarjetas tienen miles de procesadores simples trabajando en paralelo, y han demostrado que para problemas susceptibles de paralelizarse se obtienen mejoras de varios órdenes de magnitud en el rendimiento, y también en el consumo de energía. Las arquitecturas masivamente paralelizadas están demostrando ser muy eficientes energéticamente. La computación heterogénea Paralelizar un problema a nivel de programación puede ser muy sencillo, complicado o imposible. En aplicaciones de cálculo científico, ingeniería, simulaciones, etcétera, el paralelismo es la respuesta natural para «atacar» un problema. Pero, en otros casos, el paralelismo a nivel de instrucción es suficiente para conseguir un nivel de rendimiento óptimo. Lo mejor es combinar ambos tipos de procesadores y hacer que trabajen juntos en la resolución de un problema. De hecho, ya hay procesadores por parte de AMD (Fusion) e Intel (Sandy Bridge e Ivy Bridge) que combinan paralelismo por parte de la tarjeta gráfica y procesadores x86 convencionales. El resultado es la computación heterogénea. Se aplica especialmente en súper ordenadores, aunque salvando las distancias también lo puedes encontrar en los equipos de sobremesa y en los portátiles. Este camino hacia la computación heterogénea pasa por seguir mejorando y optimizando tanto los procesadores basados en ILP como en TLP. Estamos en un momento en el que la arquitectura de los ordenadores vuelve a estar en auge. En la parte de la arquitectura x86 convencional, la de los procesadores AMD Phenom y los nuevos A6 o A8, o los Intel Core Sandy Bridge o Ivy Bridge, las mayores novedades están en el campo de la eficiencia energética o en el de los gráficos integrados. Sí, ciertamente se mejora también todo lo relacionado con las unidades de predicción y se refinan los algoritmos que gestionan las cachés. Pero los movimientos más rápidos vienen de la mano del silicio a cargo del paralelismo. AMD, Intel y su legado De momento, AMD solo ha anunciado y presentado su nueva plataforma Trinity. Con Llano rompió un poco con todo y ofreció un procesador con un buen equilibrio entre potencia gráfica y potencia de CPU. Ahora llega Trinity, con 2 o 4 núcleos Bulldozer de segunda generación, denominados Piledriver. Sigue con la fórmula de los módulos, donde un módulo contiene dos núcleos para el cálculo de enteros y uno para coma flotante. Las mejoras están en el lado de la optimización de todo lo que tiene que ver con ILP, unidades de predicción, prefetch, gestión de la caché, etcétera. Y del lado de la optimización del consumo energético. De todos modos, aún no hemos tenido en nuestro Laboratorio un producto final y tangible para poder actualizar el ranking de procesadores. Cinebench es una prueba muy exigente con la CPU, por lo que resulta de gran utilidad para analizar su estabilidad y consumo De Intel e Ivy Bridge sí que hemos hablado en su día acerca de su tecnología y novedades funcionales, donde destaca la transición a la tecnología de fabricación de 22 nm, con transistores Tri-Gate, así como la mejora del rendimiento de los gráficos integrados con más unidades de ejecución y compatibilidad con DirectX 11; mejoras en la tecnología QuickSync, aparte de optimizaciones en el apartado de la gestión de energía con hasta un 50% menos de consumo para un mismo rendimiento comparado con Sandy Bridge, o compatibilidad con PCI Express 3.0. Hay que recordar que Ivy Bridge es más un cambio en la tecnología de fabricación que en la microarquitectura. Aprovechando que existen excelentes herramientas de software que permiten auditar en tiempo real el estado de los parámetros de funcionamiento de la CPU, como HW Monitor, nos hemos embarcado en la tarea de ejecutar algunos tests habituales monitorizando las constantes vitales del equipo en segundo plano, tanto con Ivy Bridge como con Sandy Bridge. La prueba estrella es Cinebench R11.5, con cargas de trabajo tanto para la GPU (OpenGL) como para la CPU, y para todos los núcleos como para uno solo. También hemos analizado el comportamiento con CyberLink MediaEspresso 6.5, que permite usar aceleración QuickSync y la CPU exclusivamente para la tarea de la recodificación de un vídeo. Gráficas de consumo Hemos trabajado con la ejecución completa del benchmark Cinebench R11.5 para el registro de los valores que luego hemos convertido en gráficos. Esencialmente son los valores de la potencia disipada en el procesador, tanto a nivel global de chip, como de núcleos de CPU y gráficos. También hemos tomado cuenta de los sensores de temperatura y anotado los resultados del benchmark. De una manera intuitiva, los puedes ver en las propias gráficas. Cuanto menos tiempo veas que se prolonga una gráfica, mejor es el rendimiento al ser menor el tiempo invertido en completar una prueba. Potencia Package Esta es una de las gráficas más descriptivas. Indica el consumo del chip en conjunto, incluyendo la lógica gráfica, los núcleos de CPU y la lógica dedica al controlador de memoria e I/O. Hemos incluido resultados tanto de Ivy Bridge con valores estándar, overclocking y underclocking, como Sandy Bridge con valores estándar y overclocking, y Sandy Bridge-E con valores estándar. La potencia máxima medida en IB (Ivy Bridge) con overclocking es equiparable a la medida en SB (Sandy Bridge) en su modo estándar de funcionamiento, aunque el rendimiento es casi un 32% mayor, con un 28% menos de potencia consumida para todas las CPU. Pero para una CPU, aunque el rendimiento es casi un 30% mejor, el consumo es un 3% peor que el de SB en modo estándar. Si comparamos SB con overclocking, con IB en modo estándar, el rendimiento está en torno a un 3% por debajo que el de SB, pero la potencia consumida por IB es un 87% menos. Una cantidad sencillamente enorme si tenemos en cuenta que el rendimiento usando todas las CPUs es muy similar. Para una CPU, el rendimiento de SB con overclocking es un 13% mejor, pero el consumo está un 46% por encima del de IB, por lo que siguen saliendo las cuentas a favor de Ivy Bridge. Ten en cuenta que los cálculos de potencia invertida en la realización de los benchmarks se realizan a partir del área bajo las curvas de las gráficas, que en esta ocasión son esencialmente planas para cada zona. La moraleja aquí es que Ivy Bridge se comporta muy bien para velocidades nominales, pero con overclocking lo cierto es que el consumo se dispara por encima de los beneficios de rendimiento que podríamos conseguir. Es más, la práctica de overclocking con voltajes cercanos al recomendado como seguro supone hacer llegar al procesador al corte térmico. Algo que no ocurre en SB con parámetros similares. En principio el problema está en la densidad térmica en IB, que es mayor que en SB, y en el uso de un compuesto térmico de peor calidad en la interfaz entre el chip y el disipador. QuickSync Video Intel usa la lógica gráfica integrada para acelerar la conversión de vídeo entre diferentes formatos. Nosotros hemos probado esta aceleración en Cyberlink MediaEspresso 6.5 (hay muchas más aplicaciones compatibles), y te mostramos la gráfica de potencia en el procesador necesaria para realizar la conversión usando QuickSync Video o solo la CPU (Ivy Bridge 3770X). Como puedes ver, no solo se consume menos potencia usando QuickSync (el primer trapecio en la gráfica). Es que se finaliza en menos tiempo. Usando la CPU se tarda más y se consume más energía. Sencillamente, es recomendable y muy útil emplear la lógica gráfica. Potencia IA La gráfica que especifica la potencia dedicada a los núcleos de la CPU sigue la misma tendencia que la dedicada a la potencia del chip menos la correspondiente a la parte de los gráficos, el controlador de memoria y la sección de E/S (entrada/salida). El apartado del underclocking, o forzar al procesador a trabajar con voltajes y frecuencias por debajo de las nominales, la realidad es que no parece muy rentable en cuestión de ahorro de energía para una tarea dada. Si te fijas, el consumo es menor, pero el tiempo que tarda en completarse la tarea es bastante mayor. Potencia Unigine Desgraciadamente, Sandy Bridge no es compatible con DirectX 11, pero con Ivy Bridge hemos podido completar el benchmark Unigine Heaven 2.5 sin poblemas. Salvo el rendimiento mínimo que se obtiene. Intel ha mejorado los gráficos, pero no tanto como para que sean adecuados para jugar en condiciones exigentes. 4,6 FPS de media no es precisamente una maravilla. Es cierto que con FSAA activado a 1.920 x 1.080 puntos de resolución, pero a estas alturas es lo que hay que pedir para una experiencia de juego medianamente aceptable. En la gráfica puedes ver que la potencia en la parte de los gráficos está al máximo de su nivel, y en la parte de la CPU se mantiene en valores comedidos, lo cual implica que el benchmark realmente hace hincapié en los gráficos y no en la CPU. Es decir, es un buen escenario para probar la lógica visual. Potencia GFX En esta gráfica las diferencias en consumo a máximo rendimiento son favorables a Ivy Bridge. Los cálculos de áreas son más complicados en este caso, pero de una manera cualitativa se puede ver que, incluso con overclocking, IB es más eficiente, con un rendimiento mayor. Pero, sobre todo, fíjate en el consumo en reposo. IB apenas sí supera el valor cero, mientras que SB tiene un consumo residual claramente visible. La verdad es que Intel ha mejorado notablemente el apartado gráfico con resultados apreciables tanto en rendimiento como en eficiencia. Potencia Asus limitada Asus aprovecha las posibilidades de las nuevas placas base de la serie 7 para implementar funcionalidades realmente interesantes, como la definición del límite de potencia consumida en el chip mediante tres valores predefinidos (35, 45 y 77 vatios), aunque es de esperar que pronto se dé el salto a la selección exacta por parte del usuario del nivel de potencia deseada, aunque a costa de sacrificar el rendimiento, claro está. En la gráfica puedes ver que, efectivamente, las tres ejecuciones de Cinebench con los tres valores de potencia arrojan resultados acordes con lo esperado a nivel de rendimiento y consumo. Aunque para la configuración de 77 vatios resulta un tanto excesivo en la potencia a la vista del tiempo que tarda en completar el benchmark, como si el voltaje estuviese por encima de sus valores nominales para asegurar una mejor estabilidad. El caso de Atom Cuando Intel presentó Atom, lo hizo sacrificando una gran parte del silicio encargado de sacar partido al paralelismo a nivel de instrucción (ILP). Un procesador Atom es un procesador «en orden» (in order) en contraposición a los diseños «fuera de orden» (out of order), como los x86 convencionales. Es decir, procesa las instrucciones de un programa en orden secuencial. No las ejecuta de forma desordenada en el cauce de ejecución para adelantar los resultados. Sigue siendo arquitectura x86, pero sin esa agilidad extra que le confiere el esquema out of order. El silicio es simple, ocupa un espacio mínimo y consume una fracción de la energía que consumiría un chip out of order a la misma velocidad de reloj. Si bien eran una propuesta válida en un principio, han ido perdiendo fuelle a medida que los procesadores han optimizado su rendimiento y consumo. De todos modos, Atom se ha empezado a hacer hueco en el mundo de los sistemas empotrados. Resultados de las pruebas 1.- Configuración básica del equipo que se ha utilizado como prueba: Placa base MSI Z77-GD65 con chipset Intel Z77 (la configuración de los parámetros de funcionamiento se lleva a cabo tanto desde el software como desde la BIOS UEFI). Microprocesador Intel Core i7-3770K (referencia de Intel dentro de la gama actual Ivy Bridge) con tecnología de fabricación de 22 nm, TDP de 77 vatios, cuatro núcleos, 3,5 GHz de velocidad (hasta 3,9 GHz con Turbo Boost y 8 Mbytes de caché). Gráficos Intel HD 4000 compatibles con DirectX 11. Memoria Kingston HyperX DDR3 2.000 MHz (4 Gbytes repartidos en dos módulos de 2 Gbytes). Disco duro SSDNow V+ 200 de Kingston con la más reciente controladora SandForce y 90 Gbytes de capacidad. Monitor Samsung 19’’ (1.920 x 1.080 puntos). 2.- Nota: La salida HDMI de la placa base, dependiente de los gráficos integrados Intel HD 4000, no permite trabajar con el monitor de 30 pulgadas habitual en nuestras pruebas de Laboratorio, pero sí con una resolución Full HD (1.920 x 1.080 puntos). 3.- Abreviaturas utilizadas: n.a. (no aplicable) / n.d. (no disponible)

Mejores microprocesadores de la actualidad

Dejá tu comentario

Autor del Post