Amazon SageMaker HyperPod mejora la infraestructura de ML con escalabilidad y personalización

TL;DR

HyperPod ahora ofrece provisioning continuo para iniciar entrenamiento y despliegue con la potencia de cálculo disponible, y el resto se provisiona en segundo plano. AWS
También se introduce la funcionalidad de AMIs personalizadas para entornos empresariales con seguridad y software específico. AWS
HyperPod es compatible con Amazon EKS y mantiene clústeres persistentes con resiliencia, además de permitir SSH a las instancias EC2 subyacentes. AWS
La combinación de provisioning continuo y AMIs personalizadas ayuda a los equipos a acelerar la innovación en IA manteniendo políticas y estándares organizacionales. AWS

Contexto y antecedentes

SageMaker HyperPod es una infraestructura diseñada para optimizar el entrenamiento e inferencia de modelos de base (FM) a gran escala. Al eliminar gran parte del trabajo pesado para construir y optimizar la infraestructura de ML, HyperPod puede reducir el tiempo de entrenamiento hasta en un 40% y ofrece clústeres persistentes con resiliencia integrada. También ofrece control profundo de la infraestructura, permitiendo SSH en las instancias EC2 subyacentes. Esto facilita escalar tareas de desarrollo y despliegue de modelos en clústeres que pueden abarcar cientos o miles de aceleradores de IA, al tiempo que reduce el esfuerzo operacional de gestionar dichos clústeres. HyperPod también soporta Amazon EKS, alineándose con necesidades empresariales de gobernanza y seguridad. A medida que la IA avanza hacia producción en múltiples dominios, la necesidad de flexibilidad y control se vuelve más relevante. Las empresas desean clústeres de GPU que sigan las políticas organizacionales y reglas de seguridad. Las cargas de trabajo críticas requieren entornos especializados que se ajusten al stack de software y a los estándares operativos de la organización. En este contexto, SageMaker HyperPod presenta dos capacidades nuevas para mejorar el control y la configurabilidad de despliegues de ML a gran escala. AWS

Qué hay de nuevo

HyperPod ahora enfatiza dos capacidades coordinadas para mejorar la escalabilidad y la personalización:

Provisioning continuo

El provisioning continuo representa un avance para equipos que manejan cargas ML intensas. Ofrece un provisioning de recursos flexible que permite empezar el entrenamiento y despliegue con la potencia de cómputo disponible, mientras el sistema provee el resto en segundo plano. En la práctica, esto reduce drásticamente los tiempos de espera para recursos y acelera el tiempo hasta el entrenamiento. La arquitectura introduce un parámetro práctico para controlar la escalabilidad directamente: —node-provisioning-mode. Esta capacidad busca maximizar la utilización de recursos y la agilidad operativa de un clúster HyperPod. Detalles adicionales:

Los nodos en un clúster SageMaker HyperPod se inician con AWS Deep Learning AMIs (DLAMIs), AMIs preconstruidos optimizados para cargas de trabajo de aprendizaje profundo. Estas imágenes traen marcos de DL populares y herramientas preinstaladas para facilitar el inicio y la gestión de entrenamientos y despliegues. AWS
El provisioning continuo está diseñado para reducir la carga operativa y acelerar el desarrollo de IA, permitiendo a los equipos empezar con los recursos disponibles mientras se provisiona lo restante. AWS

AMIs personalizadas

La capacidad de AMIs personalizadas ofrece control granular y excelencia operativa para cargas de trabajo empresariales. Las organizaciones pueden construir AMIs personalizadas usando las DLAMI base de HyperPod como base y luego preinstalar agentes de seguridad, herramientas de cumplimiento, software propietario y bibliotecas especializadas directamente en las imágenes optimizadas. Esto ayuda a combinar requisitos de HPC con la seguridad y los estándares operativos empresariales. El artículo describe un enfoque paso a paso para crear una AMI personalizada y usarla en un clúster HyperPod. También explica cómo recuperar la AMI base de HyperPod desde la consola EC2 o mediante AWS CLI con AWS Systems Manager (SSM), y luego usarla para crear la AMI personalizada. AWS Antes de usar AMIs personalizadas, asegúrese de que las políticas IAM necesarias estén configuradas (por ejemplo, políticas para el usuario ClusterAdmin). Para crear un clúster con una AMI personalizada, use aws sagemaker create-cluster y especifique ImageId con su AMI personalizada, además de otras configuraciones requeridas del clúster. El artículo también describe cómo escalar un grupo de instancias y señala que existen requisitos y limitaciones al usar AMIs personalizadas, así como pasos para limpiar los recursos y evitar cargos. AWS

Enfoque práctico (visión general)

Decidir entre recuperar la AMI base vía la consola EC2 o vía AWS CLI/SSM para obtener la AMI HyperPod. 2) Construir su propia AMI personalizada a partir de la AMI base de HyperPod, añadiendo los agentes de seguridad y bibliotecas específicas. 3) Verificar que las políticas IAM necesarias estén en vigor (por ejemplo, para el usuario Administrador del clúster). 4) Crear un clúster SageMaker con ImageId apuntando a su AMI personalizada. 5) Dimensionar el grupo de instancias según las necesidades de la carga de trabajo. 6) Supervisar, verificar y limpiar recursos para evitar cargos. AWS

Cómo recuperar la AMI base (dos opciones)

Usando la consola Amazon EC2
Usando la AWS CLI con AWS Systems Manager (SSM) para obtener la última AMI base HyperPod Estas opciones permiten seleccionar la AMI base HyperPod y luego comenzar la personalización. AWS

Limpieza y gobernanza

El artículo subraya la importancia de limpiar los recursos cuando ya no son necesarios para evitar cargos continuos, una práctica estándar para gestionar infraestructuras en la nube a gran escala. AWS

Puntos clave

El mensaje central es que el provisioning continuo y las AMIs personalizadas amplían la flexibilidad y el control de SageMaker HyperPod, permitiendo alinear entornos con las políticas de seguridad organizacionales y acelerar los flujos de ML. AWS

Conclusiones clave

El provisioning continuo reduce los tiempos de espera para recursos y acelera el entrenamiento y despliegue. AWS
Las DLAMIs proporcionan imágenes optimizadas listas para usar para cargas DL, simplificando el inicio y la reproducibilidad. AWS
Las AMIs personalizadas permiten alinear los entornos con políticas de seguridad y requisitos de software, manteniendo el rendimiento. AWS
HyperPod es compatible con Amazon EKS, facilitando la orquestación de producción y la aplicación de políticas. AWS
Es crucial configurar adecuadamente IAM y limpiar recursos cuando se usan AMIs personalizadas para evitar cargos no deseados. AWS

FAQ

¿Qué aborda principalmente SageMaker HyperPod?

Es una infraestructura creada para optimizar el entrenamiento e inferencia de modelos de base a escala, con clústeres persistentes y control de la infraestructura. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)
¿Qué aporta el provisioning continuo a las cargas ML?

Proporciona provisioning de recursos flexible, permitiendo empezar con la capacidad disponible mientras se provisiona el resto en segundo plano. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)
¿Cómo mejoran las AMIs personalizadas los entornos empresariales?

Permiten construir imágenes que cumplen políticas de seguridad y requisitos de software, incorporando agentes de seguridad y bibliotecas propietarias. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)
¿Cómo se despliega un clúster con una AMI personalizada?

Use aws sagemaker create-cluster con ImageId apuntando a su AMI personalizada, junto con otras configuraciones del clúster. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)
¿Qué consideraciones existen al usar AMIs personalizadas?

Existen requisitos y limitaciones, incluidas políticas IAM y prácticas de limpieza para evitar cargos. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)