banner

Blog

Sep 02, 2023

ALICE mejora su apuesta por la informática sostenible

El diseño y la implementación de un modelo informático completamente nuevo, el proyecto O2, permite a la colaboración ALICE fusionar el procesamiento de datos en línea y fuera de línea en un único marco de software para hacer frente a las demandas de Run 3 y más allá. Volker Lindenstruth va detrás de escena.

El Gran Colisionador de Hadrones (LHC) volvió a la vida con un rugido el 5 de julio de 2022, cuando se reanudaron las colisiones protón-protón con una energía récord de centro de masa de 13,6 TeV para la ejecución 3. Para permitir que la colaboración ALICE se beneficie del aumento de luminosidad instantánea De esta y futuras ejecuciones del LHC, el experimento ALICE experimentó una importante actualización durante Long Shutdown 2 (2019-2022) que mejorará sustancialmente la reconstrucción de la pista en términos de precisión espacial y eficiencia de seguimiento, en particular para partículas de bajo momento. La actualización también permitirá una mayor tasa de interacción de hasta 50 kHz para colisiones plomo-plomo (PbPb) en modo de lectura continua, lo que permitirá a ALICE recopilar una muestra de datos más de 10 veces mayor que las muestras combinadas de Ejecución 1 y 2. .

ALICE es un experimento único en el LHC dedicado al estudio de la materia nuclear extrema. Consta de un barril central (el mayor productor de datos) y un “brazo” de muones delantero. El barril central se basa principalmente en cuatro subdetectores para el seguimiento de partículas: el nuevo sistema de seguimiento interno (ITS), que es un rastreador de silicio monolítico de siete capas y 12,5 gigapíxeles (CERN Courier julio/agosto de 2021 p29); una cámara de proyección de tiempo (TPC) mejorada con lectura basada en GEM para funcionamiento continuo; un detector de radiación de transición; y un detector de tiempo de vuelo. El brazo de muones se compone de tres dispositivos de seguimiento: un rastreador delantero de muones recién instalado (un rastreador de silicio basado en sensores monolíticos de píxeles activos), cámaras de muones renovadas y un identificador de muones.

Debido al mayor volumen de datos en el detector ALICE actualizado, es imposible almacenar todos los datos sin procesar producidos durante la ejecución 3. Por lo tanto, una de las principales actualizaciones de ALICE en preparación para la última ejecución fue el diseño y la implementación de un modelo informático completamente nuevo: el proyecto O2, que fusiona el procesamiento de datos en línea (síncrono) y fuera de línea (asíncrono) en un único marco de software. Además de una actualización de las granjas informáticas del experimento para la lectura y el procesamiento de datos, esto requiere una compresión en línea eficiente y el uso de unidades de procesamiento de gráficos (GPU) para acelerar el procesamiento.

Como su nombre lo indica, las GPU se diseñaron originalmente para acelerar la representación de gráficos por computadora, especialmente en juegos 3D. Si bien se siguen utilizando para este tipo de cargas de trabajo, las GPU se han convertido en procesadores vectoriales de uso general para su uso en una variedad de entornos. Su capacidad intrínseca para realizar varias tareas simultáneamente les otorga un rendimiento informático mucho mayor que las CPU tradicionales y les permite optimizarse para el procesamiento de datos en lugar de, por ejemplo, el almacenamiento en caché de datos. Por lo tanto, las GPU reducen el costo y el consumo de energía de las granjas de computación asociadas: sin ellas, se necesitarían alrededor de ocho veces más servidores del mismo tipo y otros recursos para manejar el procesamiento en línea ALICE TPC de datos de colisión PbPb a una velocidad de interacción de 50 kHz.

Desde 2010, cuando entró en funcionamiento la granja de computadoras en línea (HLT) de activación de alto nivel, el detector ALICE ha sido pionero en el uso de GPU para la compresión y el procesamiento de datos en física de alta energía. El HLT tenía acceso directo al hardware de lectura del detector y fue crucial para comprimir los datos obtenidos de colisiones de iones pesados. Además, el marco del software HLT era lo suficientemente avanzado como para realizar la reconstrucción de datos en línea. La experiencia adquirida durante su operación en LHC Run 1 y 2 fue esencial para el diseño y desarrollo de los sistemas de software y hardware actuales de O2.

Para la lectura y el procesamiento de datos durante la ejecución 3, los componentes electrónicos frontales del detector ALICE se conectan a través de enlaces de transceptor gigabit tolerantes a la radiación a conjuntos de puertas programables en campo personalizados (consulte la figura "Flujo de datos"). Este último, alojado en los nodos de la granja del procesador de primer nivel (FLP), realiza lectura continua y supresión cero (la eliminación de datos sin señal física). En el caso de ALICE TPC, la supresión cero reduce la velocidad de datos de unos prohibitivos 3,3 TB/s en el extremo frontal a 900 GB/s para operaciones PbPb con polarización mínima de 50 kHz. Luego, la granja de lectura FLP envía este flujo de datos a los nodos de procesamiento de eventos (EPN) mediante un software de distribución de datos que se ejecuta en ambas granjas.

Ubicada en tres contenedores en la superficie cerca del sitio ALICE, la granja de EPN comprende actualmente 350 servidores, cada uno equipado con ocho GPU AMD con 32 GB de RAM cada una, dos CPU AMD de 32 núcleos y 512 GB de memoria. La granja EPN está optimizada para la reconstrucción de pistas TPC más rápida posible, que constituye la mayor parte del procesamiento sincrónico y proporciona la mayor parte de su potencia informática en forma de procesamiento GPU. Como los datos fluyen desde el front-end hacia las granjas y no se pueden almacenar en búfer, la capacidad informática de EPN debe ser suficiente para las velocidades de datos más altas esperadas durante la ejecución 3.

Después de haber sido pionera en el uso de GPU en física de alta energía durante más de una década, ALICE ahora emplea en gran medida GPU para acelerar el procesamiento en línea y fuera de línea.

Debido al enfoque de lectura continua del experimento ALICE, el procesamiento no se produce en un "evento" particular desencadenado por algún patrón característico en las señales del detector. En cambio, todos los datos se leen y almacenan durante un intervalo de tiempo predefinido en una estructura de datos de marco de tiempo (TF). La longitud del TF suele elegirse como un múltiplo de una órbita del LHC (correspondiente a unos 90 microsegundos). Sin embargo, dado que siempre debe caber un TF completo en la memoria de la GPU, la colaboración optó por utilizar una memoria de GPU de 32 GB para otorgar suficiente flexibilidad al operar con diferentes longitudes de TF. Además, se implementó un esfuerzo de optimización para reutilizar la memoria de la GPU en pasos de procesamiento consecutivos. Durante la carrera de protones en 2022, el sistema se vio estresado al aumentar las tasas de colisión de protones más allá de las necesarias para maximizar la luminosidad integrada para los análisis físicos. En este escenario, se eligió que la longitud del TF fuera de 128 órbitas del LHC. Estas pruebas de alta tasa tenían como objetivo reproducir ocupaciones similares a las tasas esperadas de colisiones PbPb. La experiencia de ALICE demostró que el procesamiento EPN podría mantener tasas de casi el doble del valor de diseño nominal (600 GB/s) previsto originalmente para colisiones PbPb. Utilizando colisiones de protones de alta velocidad a 2,6 MHz, la lectura alcanzó 1,24 TB/s, que fue completamente absorbida y procesada en las EPN. Sin embargo, debido a las fluctuaciones en la centralidad y la luminosidad, el número de visitas al TPC (y por tanto el tamaño de memoria requerido) varía ligeramente, lo que exige un cierto margen de seguridad.

A las velocidades de datos sin procesar entrantes durante la ejecución 3, es imposible almacenar los datos, ni siquiera temporalmente. Por lo tanto, los datos salientes se comprimen en tiempo real a un tamaño manejable en la granja de EPN. Durante esta transferencia de red, la suite de distribución de datos lleva a cabo la creación de eventos, que recopila todos los TF parciales enviados por los detectores y programa la creación del TF completo. Al final de la transferencia, cada nodo EPN recibe y luego procesa un TF completo que contiene datos de todos los detectores ALICE.

El detector que genera, con diferencia, el mayor volumen de datos es el TPC, y contribuye con más del 90 % del tamaño total de los datos. La granja de EPN lo comprime a una velocidad manejable de alrededor de 100 GB/s (dependiendo de la velocidad de interacción), que luego se almacena en el búfer del disco. La compresión TPC es particularmente elaborada y emplea varios pasos, incluida una compresión de modelo de pista para reducir la entropía del clúster antes de la codificación de entropía. La evaluación de la distorsión de la carga espacial del TPC durante la toma de datos es también el aspecto más intensivo en informática de las calibraciones en línea, ya que requiere la reconstrucción global de la trayectoria de varios detectores. Con la tasa de interacción aumentada de la Ejecución 3, el procesamiento del orden del uno por ciento de los eventos es suficiente para la calibración.

Durante la toma de datos, el sistema EPN funciona sincrónicamente y la reconstrucción del TPC carga completamente las GPU. Dado que la granja de EPN proporciona el 90 % de su rendimiento informático a través de GPU, también es deseable maximizar la utilización de la GPU en la fase asíncrona. Dado que la contribución relativa del procesamiento de TPC a la carga de trabajo general es mucho menor en la fase asíncrona, los tiempos de inactividad de la GPU serían altos y el procesamiento estaría limitado por la CPU si la parte de TPC solo se ejecutara en las GPU. Para utilizar las GPU al máximo, el software de reconstrucción asíncrona del cilindro central se está implementando con soporte nativo de GPU. Actualmente, alrededor del 60% de la carga de trabajo se puede ejecutar en una GPU, lo que produce un factor de aceleración de aproximadamente 2,25 en comparación con el procesamiento exclusivo de la CPU. Con la adaptación completa del software de seguimiento del cañón central a la GPU, se estima que el 80% de la carga de trabajo de reconstrucción podría procesarse en las GPU.

A diferencia del procesamiento sincrónico, el procesamiento asincrónico incluye la reconstrucción de datos de todos los detectores y de todos los eventos en lugar de solo un subconjunto; Los objetos listos para el análisis físico producidos a partir del procesamiento asincrónico se ponen a disposición en la red informática. Como resultado, la carga de trabajo de procesamiento para todos los detectores, excepto el TPC, es significativamente mayor en la fase asíncrona. Para el TPC, la agrupación y la compresión de datos no son necesarias durante el procesamiento asincrónico, mientras que el seguimiento se ejecuta en un conjunto de datos de entrada más pequeño porque algunos de los aciertos del detector se eliminaron durante la compresión de datos. En consecuencia, el procesamiento TPC es más rápido en la fase asíncrona que en la fase síncrona. En general, el TPC contribuye significativamente al procesamiento asincrónico, pero no es dominante. La reconstrucción asincrónica se dividirá entre la finca de la EPN y los sitios del Grid. Si bien aún no se ha decidido el esquema de distribución final, el plan es dividir la reconstrucción entre la granja de computación en línea, los sitios de Nivel 0 y de Nivel 1. Durante los períodos de cierre del LHC, los nodos de la granja EPN se utilizarán casi en su totalidad para procesamiento asincrónico.

En 2021, durante las primeras colisiones del haz piloto con energía de inyección, el procesamiento síncrono estaba en marcha y se puso en funcionamiento con éxito. En 2022 se utilizó durante las operaciones nominales del LHC, donde ALICE realizó el procesamiento en línea de colisiones de pp a una tasa de interacción inelástica de 2,6 MHz. A tasas de interacción más bajas (tanto para colisiones pp como PbPb), ALICE ejecutó tareas de procesamiento adicionales en recursos EPN gratuitos, por ejemplo, la determinación en línea de la pérdida de energía de partículas cargadas TPC, lo que no sería posible con la tasa de colisión PbPb completa de 50 kHz. El rendimiento de la identificación de partículas se demuestra en la figura "ID de partícula", en la que no se aplicaron selecciones adicionales en las pistas ni calibraciones del detector.

Otra métrica de rendimiento utilizada para evaluar la calidad de la reconstrucción de TPC en línea es la eficiencia del seguimiento de partículas cargadas. La eficiencia para reconstruir pistas de colisiones de PbPb con una energía del centro de masa de 5,52 TeV por par de nucleones oscila entre el 94% y el 100% para pT > 0,1 GeV/c. Aquí la tasa de pistas falsas es bastante insignificante; sin embargo, la tasa de clonación aumenta significativamente para las pistas primarias con pT bajo debido a la fusión incompleta de partículas de muy bajo momento que se enrollan en el campo solenoidal ALICE y salen y entran al TPC varias veces.

El uso eficaz de los recursos de la GPU proporciona procesadores extremadamente eficientes. Además, las GPU ofrecen una calidad de datos mejorada y un costo y eficiencia de cómputo, aspectos que no han sido pasados ​​por alto en los otros experimentos del LHC. Para gestionar sus velocidades de datos en tiempo real, LHCb desarrolló el proyecto Allen, un activador de primer nivel procesado íntegramente en GPU que reduce la velocidad de datos antes de los pasos de alineación, calibración y reconstrucción final en un factor de 30 a 60. Con este enfoque, se procesan 4 TB/s en tiempo real y se seleccionan 10 GB de las colisiones más interesantes para el análisis físico.

Al comienzo de la ejecución 3, la colaboración de CMS implementó una nueva granja HLT que comprende 400 CPU y 400 GPU. Con respecto a una solución tradicional que utiliza solo CPU, esta configuración redujo el tiempo de procesamiento del disparador de alto nivel en un 40 %, mejoró el rendimiento del procesamiento de datos en un 80 % y redujo el consumo de energía de la granja en un 30 %. ATLAS utiliza ampliamente las GPU para análisis físicos, especialmente para aplicaciones de aprendizaje automático. También se ha centrado la atención en el procesamiento de datos, anticipando que en los próximos años gran parte de ellos se podrá descargar a las GPU. Para los cuatro experimentos del LHC, el uso futuro de GPU es crucial para reducir el costo, el tamaño y el consumo de energía dentro de las luminosidades más altas del LHC.

Después de haber sido pionera en el uso de GPU en física de alta energía durante más de una década, ALICE ahora emplea en gran medida GPU para acelerar el procesamiento en línea y fuera de línea. Hoy en día, el 99% del procesamiento síncrono se realiza en GPU, dominadas por el mayor contribuyente, el TPC.

Por otro lado, sólo alrededor del 60% del procesamiento asincrónico (para colisiones de 650 kHz pp) se ejecuta actualmente en GPU, es decir, procesamiento de datos fuera de línea en la granja de EPN. Para el procesamiento asincrónico, incluso si el TPC sigue siendo un contribuyente importante a la carga informática, existen otros subdetectores que son importantes. De hecho, hay un esfuerzo continuo para portar mucho más código a las GPU. Tal esfuerzo aumentará la fracción de código acelerado por GPU a más del 80% para un seguimiento completo del barril. Con el tiempo, ALICE pretende ejecutar el 90% de todo el procesamiento asincrónico en GPU.

En noviembre de 2022, los detectores y sistemas centrales ALICE mejorados experimentaron colisiones de PbPb por primera vez durante una prueba piloto de dos días a una tasa de colisión de aproximadamente 50 Hz. El procesamiento de PbPb de alta velocidad se validó inyectando datos de Monte Carlo en la granja de lectura y ejecutando toda la cadena de procesamiento de datos en 230 nodos de EPN. Debido a que los volúmenes de datos de TPC son algo mayores de lo esperado inicialmente, esta prueba de estrés ahora se está revalidando con firmware de TPC continuamente optimizado utilizando 350 nodos EPN junto con el firmware de TPC final para proporcionar el margen de cálculo requerido del 20 % con respecto al PbPb de 50 kHz previsto. operaciones en octubre de 2023. Junto con los componentes del detector mejorados, el experimento ALICE nunca ha estado en mejores condiciones para sondear materia nuclear extrema durante las ejecuciones actuales y futuras del LHC.

Colaboración ALICIA. 2023 arXiv:2302.01238.ALICE Colaboración. 2019 Computación. Física. Comunitario. 242 25.ALICE Colaboración. 2015 CERN-LHCC-2015-006.

Nuevos nodosFlujo de datosProcesamiento en paraleloID de partículaSeguimiento duro
COMPARTIR