Posteamelo

_____________________________________________________________________________________________________

Sequoia
IBM BlueGene/Q

_____________________________________________________________________________________________________

Por primera vez desde Noviembre de 2009, un supercomputador de Estados Unidos se situa en lo alto de la lista de los top 500 (www.TOP500.org) de los supercomputadores más potentes del mundo. Llamado Sequoia, el sistema de IBM BlueGene/Q instalado en el Departamento de Energía Lawrence Livermore National Laboratory, alcanzó una impresionante velocidad de 16'32 petaflop/s en el test de velocidad Linpack usando 1,572,864 núcleos.

IBM Blue Gene/Q BGQ4 en Lawrence Livermore National Laboratory

Los 96 racks de que consta toda la instalación en LLNL

Una vista en detalle de los racks

Sequoia tambien es uno de los sistemas más eficientes de la lista TOP500, la cual se mostró el lunes, 18 de Junio de 2012 en la Conferencia de Supercomputación Internacional 2012 (International Supercomputing Conference) en Hamburgo, Alemania. Esta es la 39ª edición de la lista, la cual se actualiza dos veces al año.

Un nodo IBM BlueGene/Q. Encima una tarjeta con la CPU y sus memorias. Cables naranjas de fibra óptica conectan las entradas y salidas. Los tubos naranjas son la refrigeración líquida.

Esta supercomputadora de IBM consiguió resolver las ecuaciones del test de Linpack a una velocidad de 16'32 petaflop/s (16320 billones de operaciones en Punto Flotante por Segundo). Superó por mucho a la máquina japonesa que ostentaba el nº 1 con 10'51 petaflop/s. Los FLOPS como métrica de rendimiento únicamente evalúan los cálculos de operaciones matemáticas con números decimales, evidentemente, el rendimiento de un sistema no puede medirse por este único parámetro, ya que es claro que hay otras operaciones vitales tales como las operaciones de transferencia de información entre distintos procesadores y/o unidades lógicas o funcionales dentro del sistema. Para ver una comparativa de éstos test de velocidad, consultar con TOP500.org.

Características técnicas generales

Lugares de instalación:
- D.O.E (Department Of Energy), Departamento de Energía
- N.N.S.A. (National Nuclear Security Agency), Agencia de Seguridad Nuclear Nacional
- L.L.N.L. (Lawrence Livermore National Laboratory), Laboratorio Nacional Lawrence Livermore
Fabricante: IBM
Superficie ocupada: 320 m².
Modelo de sistema: BlueGene/Q
Procesador (CPU): Power BQC, 16 núcleos, 1'60 GHz, 32Mb caché, 64 bits, 45nm, a medida
Número de Procesadores: 98304 (casi cien mil)
Número Núcleos total: 1572864 (millón y medio)
Racks: 96
Energía eléctrica consumida: 7'89 MW
Memoria:1572864 GB
Interconexión: A medida
Arquitectura: M.P.P. (Massively Parallel Processing or Massively Parallel Processor) Proceso Paralelo Masivo.
Acelerador gráfico y/o Co-Procesador: no
Sistema Operativo: Linux

Rmax = 16'324751 petaflop/s
Rpeak = 20'132659 petaflop/s
Eficiencia = 81'09 %
Mflops/Watt = 2069,04

Arquitectura de Blue Gene

Blue Gene incorpora la arquitectura M.P.P., que consiste en un sistema de multiproceso que usa muchos procesadores y un paradigma de programación diferente del Proceso Simétrico común (SMP = Symmetric MultiProcessing) que se encuentra en los sistemas de computadora actuales.

Comparación entre MPP y SMP

En una operación MPP, el problema se parte en elementos separados, los cuales se procesan simultaneamente. En SMP, las CPUs están asignadas a la siguiente tarea disponible o hilo que se puede ejecutar concurrentemente.
El sistema MPP es mucho más rápido, eficiente y aprovecha mejor los recursos.

Tarjeta con una CPU IBM Power BGQ

Drawer de I/O y fuentes de alimentación

Arquitectura Blue Gene/Q

Generación anterior. Arquitectura de Blue Gene/L

Procesador Power BGQ

Sequoia está construido en base a la CPU de IBM Power6 y el Modelo de sistema BlueGene/Q. Esta CPU tiene 18 núcleos en un chip, con un núcleo dedicado a correr Linux, un núcleo de sobra, y 16 núcleos dedicados a computación.

· Los núcleos de la CPU son de tipo multihilo simultáneo de 4 vías. Cada núcleo tiene una unidad SIMD Quad-vector de doble precisión de punto flotante. Los núcleos tienen una caché L2 de 32 MB eDRAM, operando a la mitad de velocidad del núcleo. La cache de nivel 2 (L2) es multi-versión, soportando memoria transaccional y ejecución especulativa. La recarga de la cache L2 está controlada por 2 controladores de memoria DDR3 integrados funcionando 1'33 GHz. El chip tambien integra lógica para comunicaciones chip-a-chip en una configuración en Toro 5D, con enlaces 2GB/s chip-a-chip. 16 núcleos se usan para computación, y un 17º para funciones de asistencia al sistema operativo tales como interrupciones, comunicación asíncrona I/O, estimulación MPI y RAS. El 18º núcleo se usa como redundante libre en caso de que uno de los otros se dañe permanentemente, como por ejemplo en manufactura. El redundante libre se apaga durante el funcionamiento.
Está fabricado con el proceso en cobre de IBM a 45 nm. Produce un pico de prestaciones de 204'8 GFLOPS a 1'6 GHz, consumiendo unos 55 vatios. El chip mide 19×19 mm (359'5 mm²) y tiene 1470 millones de transistores. El chip se monta en una tarjeta junto con 16 GB DDR3 DRAM (1 GB para cada núcleo).
· Un nodo tiene 32 tarjetas, cada una refrigerada por agua y conectada en una red Toro 5D.
· Cada Rack tiene 32 nodos, 16384 núcleos de usuario y 16 TB RAM (16GB x 1024).
· Existen unos cajones separados "drawer" de I/O que están refrigerados por aire y contienen 8 tarjetas y 8 slots de expansión PCIe para conectar las tarjetas de red Ethernet de 10 Gigabit o bien las Infiniband.
· Las CPUs funcionan a una velocidad de reloj de 1'6 GHz y están refrigeradas por agua. Las CPUs están ensambladas sobre una tarjeta que contiene otra característica significativa: 72 módulos de memoria DDR3, de la marca Micron. De acuerdo a IBM, el ancho de banda de la CPU es 42 GB/s. El radiador de la CPU se extiende sobre la memoria en un lado de la tarjeta, proporcionando refrigeración líquida a la memoria tambien. IBM dice que la máquina está refrigerada por agua en un 90% y el resto 10% por aire, lo que hace que la máquina sea muy silenciosa, al contrário que muchos servidores.

Red en Toro 5D

Las redes informáticas tradicionales ya no son suficientes para dar respuesta a las demandas de los sistemas de supercomputación. Por eso ahora se utilizan redes tridimensionales:

Comparación de redes clásicas y redes 3D

Topología Toro

Las topologías de red, es decir, los tipos de red, difieren en algunos puntos críticos: costo de todo el sistema, ancho de banda agregado, latencia y resistencia a los fallos de los componentes.

El coste global de un sistema de 4096 nodos de red con diferentes configuraciones se muestra en la siguiente figura:

Costo del sistema en función de la topología de red local

En esa gráfica podemos observar que a mayor complejidad en la topología, mayor precio, lógicamente. Pero en un sistema que va a ser destinado a supercomputación lo interesante es la velocidad y no el precio. El precio queda en segundo lugar. Podemos observar que la topología en árbol es la más cara y que además se dispara cuando el número de nodos es grande.

Otro factor importante a tener en cuenta es el número de nodos por los que tiene que pasar la información para llegar desde un lugar a otro de la red. El número de nodos de paso "hops" es crucial, porque el máximo ancho de banda simultáneo a todos los nodos es:

Sistemas con un pequeño número de enlaces pero poca media de hops puede ser más rápido que los sistemas
con más enlaces pero mayor longitud media de trayecto entre el nodo inicial y el destino.

Topologías, puertos y dimensiones

Por ejemplo, un toro de 16×16×16 (3D) podría ser buena topología porque es relativamente de bajo costo y fácil de ensamblar. Sin embargo, esta topología podría tener 4096×6/2 = 12288 enlaces, y la distancia media desde un borde a un nodo deseado podría ser 16/4+16/4+16/4 = 12 hops. Esto podría limitar el ancho de banda teórico a 1×12288/12= 1024Gb/s, o 128GB/s a lo sumo, lo cual puede ser insuficiente para cumplir la demanda de 100GB/s de este ejemplo. La siguiente figura muestra el número esperado de hops para cada topología de red además de la carga esperada en cada enlace de red.

Longitud de trayecto y carga del enlace en función de la topología

En el Sequoia se ha llegado a un compromiso entre velocidad de red y precio, eligiendo la Toro 5D. Hay otras más rápidas pero más caras.

Utilidades

Las utilidaddes de un Supercomputador son normalmente: la simulación, el cálculo y la estimación.
Dentro del primer grupo tenemos muchas utilidades: simuladores 3D de aeronáutica para comprobación de la mecánica y el correcto funcionamiento de aviones durante el diseño, simuladores 2D y 3D atmosféricos para prevenir catástrofes ambientales (Tsunamis, huracanes, tormentas, temperaturas extremas, inundaciones, etc), simulación de terremotos, etc.
Dentro del segundo podemos tener: el cálculo financiero, energía producida por la reacción nuclear, números primos, criptografía, etc.
En el tercer caso tenemos la predicción de fenómenos astronómicos, por ejemplo, agujeros negros.

En el caso concreto que nos ocupa del Sequoia, y más concretamente, el que está instalado en el LLNL, tiene las siguientes utilidades:

- Centro para Acelerador de Espectrometría de Masa

- Acelerador Biomédico de Espectrometría de masa

- Centro para Micro y Nanotecnologías

- Instalaciones para Aplicaciones de Explosivos Potentes

Instalaciones de usuario para Aplicaciones de Explosivos Potentes.

- Instituto Genoma Unido

- Instalación Láser Júpiter

- Centro Nacional de Aviso Atmosférico Temprano

- Instalación Nacional de Ignición

Centro Nacional de Aviso Atmosférico Temprano.

- Programa para Diagnósticos e Intercomparación de Modelos de Clima

- Instalación de Disparo Contenido en Site 300

- Instalación de Simulación de Teraescala

Instalación de usuario en L.L.N.L., Instalación de Disparo Contenido en Site 300.

Instalación del SuperComputador

Los distintos racks se colocan en un suelo hueco, o falso suelo, que tiene unas placas removibles para poder introducir los cables de fibra óptica que interconectan todos los racks, además de por su puesto, los cables de energía eléctrica.

Interconexión de Racks

Evidentemente, toda la información procesada por los racks ha de ser introducida, visualizada y almacenada en otro sitio. En la figura siguiente vemos el sistema externo de control, almacenamiento y gestión.

Esquema general

Instalación del sistema de ficheros del LLNL Sequoia

Competencia

Por supuesto, hay otros muchos supercomputadores, pero no tan rápidos como el Sequoia. Todos los países del mundo andan detrás de uno, o bien de fabricación propia, o bien comprado a terceros.
A continuación presento un interesante video donde se ve la actualización de otro monstruo de la computación: el KRAKEN de la compañía CRAY, que le hace la competencia a IBM.

Cray amplía el Supercomputador "Kraken" con procesadores de 6 núcleos AMD Opteron

Lista de los primeros Supercomputadores

A fecha de hoy 29 de Septiembre de 2012, los primeros de la lista son:

Top 13 Supercomputers

Destacan los USA e IBM.

Evolución histórica

Evolución de los Supercomputadores: arquitecturas, fabricantes y utilidades

Saludos. Espero les haya gustado.

Supercomputador más rápido del mundo

Dejá tu comentario

Autor del Post