Posteamelo

Físicos y expertos en informática científica se preparan para una arremetida de petabytes.

Symmetry Magazine

Artwork by Sandbox Studio, Chicago with Corinne Mucha

Por Manuel Gnida, para Symmetry Magazine Noviembre 15 de 2016

Los rápidos avances en la informática se traducen constantemente en nuevas tecnologías en nuestra vida cotidiana. Lo mismo es cierto para la física de alta energía. El campo siempre ha sido uno de los primeros en adoptar las nuevas tecnologías, aplicándolas en experimentos cada vez más complejos que estudian los detalles de los procesos más fundamentales de la naturaleza. Sin embargo, estos experimentos sofisticados producen inundaciones de datos complejos que se vuelven cada vez más difíciles de manejar y analizar.

Los investigadores estiman que dentro de una década, los recursos informáticos pueden tener dificultades para mantenerse al día con la gran cantidad de datos producidos por las máquinas de descubrimiento de vanguardia. El Gran Colisionador de Hadrones del CERN, por ejemplo, ya genera decenas de petabytes (millones de gigabytes) de datos por año hoy, y producirá diez veces más después de una futura actualización de alta luminosidad.

Los grandes desafíos de datos como estos no se limitan a la física de alta energía. Cuando el Gran Telescopio de Levantamiento Sinóptico comience a observar todo el cielo del sur con detalles nunca antes vistos, creará un flujo de 10 millones de eventos dependientes del tiempo cada noche y un catálogo de 37 mil millones de objetos astronómicos en 10 años. Otro ejemplo es el futuro láser de rayos X LCLS-II en el Laboratorio Nacional de Aceleradores SLAC del Departamento de Energía, que disparará hasta un millón de pulsos de rayos X por segundo en materiales para proporcionar vistas sin precedentes de los átomos en movimiento. También generará toneladas de datos científicos.

Para hacer las cosas más desafiantes, todas las aplicaciones de big data tendrán que competir por los recursos de computación disponibles, por ejemplo, cuando envían información por todo el mundo a través de redes compartidas.

¿Cuáles son las herramientas que los investigadores necesitarán para manejar las pilas de datos futuros, examinarlas e identificar la ciencia interesante? ¿Cómo podrán hacerlo lo más rápido posible? ¿Cómo se moverán y almacenarán enormes volúmenes de datos de manera eficiente y confiable? ¿Y cómo pueden posiblemente lograr todo esto mientras enfrentan presupuestos que se espera que se mantengan estacionarios?

"Claramente, estamos en un punto donde tenemos que discutir en qué dirección debe ir la computación científica para abordar las crecientes demandas computacionales y los déficits esperados", dijo Richard Mount, jefe de informática de la división de física de partículas de SLAC.

El investigador copresidió la 22ª Conferencia Internacional de Informática en Física Nuclear y de Alta Energía (CHEP 2016), que se celebró del 10 al 14 de octubre en San Francisco, donde más de 500 físicos y expertos en informática intercambiaron ideas sobre posibles soluciones.

Estas son algunas de sus ideas.

Artwork by Sandbox Studio, Chicago with Corinne Mucha

Supercomputadores Exascale

La informática científica se ha beneficiado enormemente de lo que se conoce como la ley de Moore: la observación de que el rendimiento de los chips de computadora se ha duplicado cada 18 meses aproximadamente en las últimas décadas. Esta tendencia ha permitido a los científicos manejar datos de máquinas cada vez más sofisticadas y realizar cálculos cada vez más complejos en cantidades razonables de tiempo.

La ley de Moore, basada en el hecho de que los ingenieros de hardware podían exprimir más y más transistores en chips de computadora, recientemente ha llegado a sus límites debido a que las densidades de los transistores han empezado a causar problemas con el calor.

En cambio, las arquitecturas de hardware modernas implican múltiples núcleos de procesador que se ejecutan en paralelo para acelerar el rendimiento. Los supercomputadores más rápidos de la actualidad, que se utilizan para cálculos exigentes, como el modelado climático y las simulaciones cosmológicas, tienen millones de núcleos y pueden realizar decenas de millones de miles de millones de operaciones informáticas por segundo.

"En los Estados Unidos, tenemos un mandato presidencial para impulsar aún más los límites de esta tecnología", dijo Debbie Bard, una arquitecta de datos grandes en el Centro de Cálculos Científicos de National Energy Research. "El objetivo es desarrollar sistemas de cómputo dentro de los próximos 10 años que permitan cálculos en la escala exásica, que correspondan a al menos mil millones de operaciones por segundo".

Artwork by Sandbox Studio, Chicago with Corinne Mucha

Reingeniería de software

Ejecutar más análisis de datos en supercomputadoras podría ayudar a abordar algunas de las fallas informáticas previsibles en la física de alta energía, pero el enfoque presenta sus propios desafíos.

"Los códigos de análisis existentes deben ser rediseñados", dijo Bard. "Esta es una tarea monumental, teniendo en cuenta que muchos se han desarrollado durante varias décadas".

Maria Girone, directora de tecnología de CERN Openlab, una colaboración de socios públicos y privados que desarrollan soluciones de TI para la comunidad global de LHC y otras investigaciones científicas, dice: "Los fabricantes de chips informáticos nos siguen diciendo que nuestro software solo utiliza un pequeño porcentaje del procesador actual capacidades. Para ponernos al día con la tecnología, tenemos que reescribir el software de una manera que se pueda adaptar a futuros desarrollos de hardware ".

Parte de este esfuerzo será educar a los miembros de la comunidad de física de alta energía para escribir un software más eficiente.

"Esto era mucho más fácil en el pasado cuando el hardware era menos complicado", dice Makoto Asai, quien lidera el equipo de SLAC para el desarrollo de Geant4, un conjunto de herramientas de simulación ampliamente utilizado para la física de alta energía y muchas otras aplicaciones. "Debemos aprender las nuevas arquitecturas y hacerlas más comprensibles para los físicos, quienes tendrán que escribir software para nuestros experimentos ".

Artwork by Sandbox Studio, Chicago with Corinne Mucha

Redes más inteligentes y computación en la nube

Hoy en día, la computación LHC se logra con Worldwide LHC Computing Grid o WLCG, una red de más de 170 centros informáticos vinculados en 42 países que proporciona los recursos necesarios para almacenar, distribuir y analizar las decenas de petabytes de datos producidos por los experimentos de LHC anualmente. .

"El WLCG está funcionando con mucho éxito, pero no siempre funciona de la manera más rentable", dijo Ian Fisk, subdirector de informática en la Fundación Simons y ex coordinador de informática del experimento CMS en el LHC.

"Necesitamos mover grandes cantidades de datos y almacenar muchas copias para que puedan analizarse en varias ubicaciones. De hecho, dos tercios de los costos relacionados con la informática se deben al almacenamiento, y debemos preguntarnos si la informática puede evolucionar para que no tengamos que distribuir los datos de LHC de forma tan amplia ".

Un mayor uso de los servicios en la nube que ofrecen computación on-demand basada en Internet podría ser una solución viable para el procesamiento y análisis de datos remotos sin reproducir datos.

Las nubes comerciales tienen la capacidad y la capacidad para tomar grandes datos: Google recibe miles de millones de fotos por día y cientos de horas de video por minuto, lo que plantea desafíos técnicos que han llevado al desarrollo de poderosas soluciones de computación, almacenamiento y redes.

Artwork by Sandbox Studio, Chicago with Corinne Mucha

Aprendizaje automático profundo para el análisis de datos

Mientras que los algoritmos computacionales convencionales solo realizan operaciones para las que están explícitamente programados, el aprendizaje automático usa algoritmos que aprenden de los datos y que, sucesivamente, mejoran al analizarlos.

En el caso del aprendizaje profundo, los datos se procesan en varias capas computacionales que forman una red de algoritmos inspirados en redes neuronales. Los métodos de aprendizaje profundo son particularmente buenos para encontrar patrones en los datos. Los motores de búsqueda, el reconocimiento de texto y voz, y la visión por computadora son todos ejemplos.

"Hay muchas áreas en las que podemos aprender de desarrollos tecnológicos fuera del ámbito de la física de alta energía", dijo Craig Tull, quien copresidió CHEP 2016 y es director del Grupo de Sistemas de Software de Ciencias en el Laboratorio Nacional Lawrence Berkeley. "El aprendizaje automático es un muy buen ejemplo. Nos podría ayudar a encontrar patrones interesantes en nuestros datos y detectar anomalías que potencialmente podrían dar pistas sobre nuevas ciencias ".

En la actualidad, el aprendizaje automático en física de alta energía está en su infancia, pero los investigadores han comenzado a implementarlo en el análisis de datos de una serie de experimentos , incluidos ATLAS en el LHC, el experimento de neutrinos de Daya Bay en China y múltiples experimentos en Fermi National Accelerator Laboratory cerca de Chicago .

Ilustraciones de Sandbox Studio, Chicago con Corinne Mucha

Computación cuántica

El enfoque más futurista de la computación científica es la computación cuántica, una idea que se remonta a la década de 1980, cuando fue planteada por primera vez por Richard Feynman y otros investigadores.

A diferencia de las computadoras convencionales, que codifican la información como una serie de bits que pueden tener solo uno de dos valores, las computadoras cuánticas usan una serie de bits cuánticos, o qubits, que pueden existir en varios estados a la vez. Esta multitud de estados en cualquier momento dado aumenta exponencialmente la potencia de cálculo.

Un sistema simple de un qubit podría ser un átomo que puede estar en su estado base, estado excitado o una superposición de ambos, todo al mismo tiempo.

"Una computadora cuántica con 300 qubits tendrá más estados que átomos en el universo", dijo el profesor John Martinis de la Universidad de California, Santa Bárbara, durante su presentación en CHEP 2016. "Estamos en un punto donde estos qubit los sistemas funcionan bastante bien y pueden realizar cálculos simples ".

Martinis se ha asociado con Google para construir una computadora cuántica. En un año más o menos, dice, habrán construido el primer sistema de 50 qubits. Luego, tomará días o semanas para que las supercomputadoras más grandes validen los cálculos realizados dentro de un segundo en la computadora cuántica.

Pronto podríamos descubrir en qué direcciones se desarrollará la informática científica en física de alta energía: la comunidad dará la próxima actualización en CHEP 2018 en Bulgaria.

With a tiny help from Google

Qué hacer con los datos?

Dejá tu comentario

Autor del Post