Skip to content
Conectar Centros de Datos Distribuidos en Grandes Fábricas de IA con Scale-Across Networking
Source: developer.nvidia.com

Conectar Centros de Datos Distribuidos en Grandes Fábricas de IA con Scale-Across Networking

Sources: https://developer.nvidia.com/blog/how-to-connect-distributed-data-centers-into-large-ai-factories-with-scale-across-networking, https://developer.nvidia.com/blog/how-to-connect-distributed-data-centers-into-large-ai-factories-with-scale-across-networking/, NVIDIA Dev Blog

TL;DR

  • Spectrum-XGS Ethernet habilita scale-across networking para conectar centros de datos distribuidos en una sola fábrica de IA a largas distancias (más de 500 metros).
  • Utiliza la plataforma de hardware Spectrum-X Ethernet de NVIDIA (conmutadores Spectrum-X y SuperNICs ConnectX-8) con control de congestión basado en telemetría y enrutamiento adaptativo sensible a la distancia para minimizar la latencia.
  • En pruebas NCCL a 10 km, Spectrum-XGS ofrece hasta 1,9x más ancho de banda all-reduce que Ethernet de venta general, especialmente para mensajes grandes.
  • La tecnología unifica centros de datos independientemente de la proximidad, aumentando la fungibilidad de la infraestructura de IA y permitiendo entrenamiento a gran escala e inferencia distribuida.
  • Aborda la latencia y el jitter asociados al Ethernet de largo alcance con buffers profundos, proporcionando rendimiento predecible para cargas de IA síncronas. NVIDIA

Contexto y antecedentes

La escalabilidad de IA es extremadamente compleja, y las nuevas técnicas en entrenamiento e inferencia exigen cada vez más de los data centers. Si bien la capacidad de los data centers crece rápidamente, la infraestructura física impone limitaciones que no afectan a los algoritmos y modelos. La disponibilidad de energía, la capacidad de enfriamiento y el espacio físico limitan la huella de una fábrica de IA. Para seguir creciendo, se construyen nuevos data centers y la conectividad a distancia pasa a ser un factor para reunir estos recursos para ejecutar cargas de entrenamiento distribuido o inferencia desagrupada. NVIDIA Tradicionalmente, al conectar data centers mediante Ethernet de larga distancia basado en silicio comercial, el objetivo principal era asegurar que los datos llegaran a su destino. Dadas las distancias y latencias, la congestión es probable y el impacto puede ser extremo. Para mitigar este problema y evitar la pérdida de paquetes, los proveedores de Ethernet de estantería usan buffers profundos para absorber ráfagas de tráfico. Aunque estos buffers resuelven problemas para proveedores de servicios de larga distancia y telecomunicaciones, introducen problemas para IA. En particular, los switches con buffers profundos sufren latencias más altas y, cuando el buffer se llena, debe drenarse. En workloads de IA, este evento es impredecible y genera jitter en la entrega de datos. Latencia alta e imprevisibilidad de esta técnica de absorción se vuelven problemáticas para entrenamiento e inferencia distribuidos, que son síncronos y requieren rendimiento de red predecible. Este artículo explica cómo NVIDIA Spectrum-XGS Ethernet para scale-across networking habilita conectividad inter-data center con el rendimiento necesario para IA. NVIDIA Scale-across networking es una nueva categoría de conectividad de cómputo IA que puede verse como una nueva dimensión, ortogonal a las opciones de conectividad existentes de scale-up y scale-out. Con Spectrum-XGS Ethernet para scale-across networking, múltiples data centers de tamaños y distancias variados pueden unirse como una gran fábrica de IA. Por primera vez, la red puede entregar el rendimiento necesario para entrenamiento de IA a gran escala y para inferencia entre centros geográficamente separados. Spectrum-XGS Ethernet es una nueva adición tecnológica a la plataforma NVIDIA Spectrum-X Ethernet. Se basa en la misma combinación de hardware de los switches Spectrum-X y las SuperNICs ConnectX-8, y aprovecha la misma pila de software y bibliotecas utilizadas para conectividad de scale-out dentro del data center. Con Spectrum-XGS Ethernet, la conectividad es entre fábricas de IA a largas distancias; es decir, más de 500 metros. Esto podría significar conectividad entre edificios en un campus, o a través de decenas o centenas de millas, entre ciudades o estados y países. Para hacer factible la conectividad scale-across, los algoritmos que aseguran un ancho de banda efectivo alto y el aislamiento de rendimiento debieron evolucionar. NVIDIA Uno de los desafíos al mover datos a través de largas distancias es la mayor latencia resultante—incluso para datos que viajan por fibra óptica en forma de luz. Los datos se propagan por las fibras a una velocidad de 5 nanosegundos por metro. Esto significa que recorrer 1 kilómetro toma 5 microsegundos. Estos números pueden parecer modestos, pero para la comunicación GPU-a-GPU каждa microsegundo cuenta. Spectrum-XGS Ethernet presenta control de congestión basado en telemetría modificado y enrutamiento adaptativo optimizados de acuerdo con la distancia entre los dispositivos que se comunican. Cuando se inicia una conexión, la red nota si los dos dispositivos están dentro del data center o no. Esto ayuda al switch a elegir la mejor estrategia de balanceo de carga para el enrutamiento adaptativo e informa a la SuperNIC sobre la tasa de inyección para el control de congestión. A nivel de red, esto permite que Spectrum-XGS Ethernet maneje las comunicaciones de forma holística sin incurrir en latencia adicional. NVIDIA Algunos de los beneficios clave de la tecnología Spectrum-XGS Ethernet para scale-across networking incluyen:

  • Para evidenciar el impacto en scale-across, ingenieros de NVIDIA ejecutaron primitivas NCCL entre varios sitios a una distancia de 10 km y las compararon con Ethernet de estantería. Los resultados muestran hasta 1,9x más ancho de banda NCCL all-reduce que Ethernet de estantería. El mayor aumento se observa con mensajes de mayor tamaño, típicos de cargas de entrenamiento de IA. Estas mejoras se traducen en tiempos de finalización de trabajos más rápidos para aplicaciones de IA. NVIDIA
  • Spectrum-XGS Ethernet mejora la fungibilidad de la infraestructura de IA. Al introducir una tecnología que permite a los data centers comunicarse a cualquier distancia sin degradación de rendimiento, Spectrum-XGS crea una arquitectura común entre scale-out y scale-across networking. Los data centers Ethernet basados en Spectrum-XGS pueden combinarse para operar como un único sistema, sin importar la proximidad. Esto habilita a las infraestructuras críticas de IA a agrupar recursos y entregar valor de forma constante para cargas de trabajo avanzadas de IA. NVIDIA Para aprender más sobre las innovaciones técnicas que sustentan NVIDIA Spectrum-X Ethernet, consulte NVIDIA Spectrum-X Network Platform Architecture. NVIDIA

More news