Amazon SageMaker HyperPod mejora la infraestructura de ML con escalabilidad y personalización
TL;DR
- HyperPod ahora ofrece provisioning continuo para iniciar entrenamiento y despliegue con la potencia de cálculo disponible, y el resto se provisiona en segundo plano. AWS
- También se introduce la funcionalidad de AMIs personalizadas para entornos empresariales con seguridad y software específico. AWS
- HyperPod es compatible con Amazon EKS y mantiene clústeres persistentes con resiliencia, además de permitir SSH a las instancias EC2 subyacentes. AWS
- La combinación de provisioning continuo y AMIs personalizadas ayuda a los equipos a acelerar la innovación en IA manteniendo políticas y estándares organizacionales. AWS
Contexto y antecedentes
SageMaker HyperPod es una infraestructura diseñada para optimizar el entrenamiento e inferencia de modelos de base (FM) a gran escala. Al eliminar gran parte del trabajo pesado para construir y optimizar la infraestructura de ML, HyperPod puede reducir el tiempo de entrenamiento hasta en un 40% y ofrece clústeres persistentes con resiliencia integrada. También ofrece control profundo de la infraestructura, permitiendo SSH en las instancias EC2 subyacentes. Esto facilita escalar tareas de desarrollo y despliegue de modelos en clústeres que pueden abarcar cientos o miles de aceleradores de IA, al tiempo que reduce el esfuerzo operacional de gestionar dichos clústeres. HyperPod también soporta Amazon EKS, alineándose con necesidades empresariales de gobernanza y seguridad. A medida que la IA avanza hacia producción en múltiples dominios, la necesidad de flexibilidad y control se vuelve más relevante. Las empresas desean clústeres de GPU que sigan las políticas organizacionales y reglas de seguridad. Las cargas de trabajo críticas requieren entornos especializados que se ajusten al stack de software y a los estándares operativos de la organización. En este contexto, SageMaker HyperPod presenta dos capacidades nuevas para mejorar el control y la configurabilidad de despliegues de ML a gran escala. AWS
Qué hay de nuevo
HyperPod ahora enfatiza dos capacidades coordinadas para mejorar la escalabilidad y la personalización:
Provisioning continuo
El provisioning continuo representa un avance para equipos que manejan cargas ML intensas. Ofrece un provisioning de recursos flexible que permite empezar el entrenamiento y despliegue con la potencia de cómputo disponible, mientras el sistema provee el resto en segundo plano. En la práctica, esto reduce drásticamente los tiempos de espera para recursos y acelera el tiempo hasta el entrenamiento. La arquitectura introduce un parámetro práctico para controlar la escalabilidad directamente: —node-provisioning-mode. Esta capacidad busca maximizar la utilización de recursos y la agilidad operativa de un clúster HyperPod. Detalles adicionales:
- Los nodos en un clúster SageMaker HyperPod se inician con AWS Deep Learning AMIs (DLAMIs), AMIs preconstruidos optimizados para cargas de trabajo de aprendizaje profundo. Estas imágenes traen marcos de DL populares y herramientas preinstaladas para facilitar el inicio y la gestión de entrenamientos y despliegues. AWS
- El provisioning continuo está diseñado para reducir la carga operativa y acelerar el desarrollo de IA, permitiendo a los equipos empezar con los recursos disponibles mientras se provisiona lo restante. AWS
AMIs personalizadas
La capacidad de AMIs personalizadas ofrece control granular y excelencia operativa para cargas de trabajo empresariales. Las organizaciones pueden construir AMIs personalizadas usando las DLAMI base de HyperPod como base y luego preinstalar agentes de seguridad, herramientas de cumplimiento, software propietario y bibliotecas especializadas directamente en las imágenes optimizadas. Esto ayuda a combinar requisitos de HPC con la seguridad y los estándares operativos empresariales. El artículo describe un enfoque paso a paso para crear una AMI personalizada y usarla en un clúster HyperPod. También explica cómo recuperar la AMI base de HyperPod desde la consola EC2 o mediante AWS CLI con AWS Systems Manager (SSM), y luego usarla para crear la AMI personalizada. AWS Antes de usar AMIs personalizadas, asegúrese de que las políticas IAM necesarias estén configuradas (por ejemplo, políticas para el usuario ClusterAdmin). Para crear un clúster con una AMI personalizada, use aws sagemaker create-cluster y especifique ImageId con su AMI personalizada, además de otras configuraciones requeridas del clúster. El artículo también describe cómo escalar un grupo de instancias y señala que existen requisitos y limitaciones al usar AMIs personalizadas, así como pasos para limpiar los recursos y evitar cargos. AWS
Enfoque práctico (visión general)
- Decidir entre recuperar la AMI base vía la consola EC2 o vía AWS CLI/SSM para obtener la AMI HyperPod. 2) Construir su propia AMI personalizada a partir de la AMI base de HyperPod, añadiendo los agentes de seguridad y bibliotecas específicas. 3) Verificar que las políticas IAM necesarias estén en vigor (por ejemplo, para el usuario Administrador del clúster). 4) Crear un clúster SageMaker con ImageId apuntando a su AMI personalizada. 5) Dimensionar el grupo de instancias según las necesidades de la carga de trabajo. 6) Supervisar, verificar y limpiar recursos para evitar cargos. AWS
Cómo recuperar la AMI base (dos opciones)
- Usando la consola Amazon EC2
- Usando la AWS CLI con AWS Systems Manager (SSM) para obtener la última AMI base HyperPod Estas opciones permiten seleccionar la AMI base HyperPod y luego comenzar la personalización. AWS
Limpieza y gobernanza
El artículo subraya la importancia de limpiar los recursos cuando ya no son necesarios para evitar cargos continuos, una práctica estándar para gestionar infraestructuras en la nube a gran escala. AWS
Puntos clave
El mensaje central es que el provisioning continuo y las AMIs personalizadas amplían la flexibilidad y el control de SageMaker HyperPod, permitiendo alinear entornos con las políticas de seguridad organizacionales y acelerar los flujos de ML. AWS
Conclusiones clave
- El provisioning continuo reduce los tiempos de espera para recursos y acelera el entrenamiento y despliegue. AWS
- Las DLAMIs proporcionan imágenes optimizadas listas para usar para cargas DL, simplificando el inicio y la reproducibilidad. AWS
- Las AMIs personalizadas permiten alinear los entornos con políticas de seguridad y requisitos de software, manteniendo el rendimiento. AWS
- HyperPod es compatible con Amazon EKS, facilitando la orquestación de producción y la aplicación de políticas. AWS
- Es crucial configurar adecuadamente IAM y limpiar recursos cuando se usan AMIs personalizadas para evitar cargos no deseados. AWS
FAQ
-
¿Qué aborda principalmente SageMaker HyperPod?
Es una infraestructura creada para optimizar el entrenamiento e inferencia de modelos de base a escala, con clústeres persistentes y control de la infraestructura. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)
-
¿Qué aporta el provisioning continuo a las cargas ML?
Proporciona provisioning de recursos flexible, permitiendo empezar con la capacidad disponible mientras se provisiona el resto en segundo plano. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)
-
¿Cómo mejoran las AMIs personalizadas los entornos empresariales?
Permiten construir imágenes que cumplen políticas de seguridad y requisitos de software, incorporando agentes de seguridad y bibliotecas propietarias. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)
-
¿Cómo se despliega un clúster con una AMI personalizada?
Use aws sagemaker create-cluster con ImageId apuntando a su AMI personalizada, junto con otras configuraciones del clúster. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)
-
¿Qué consideraciones existen al usar AMIs personalizadas?
Existen requisitos y limitaciones, incluidas políticas IAM y prácticas de limpieza para evitar cargos. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)
Referencias
More news
Llevar agentes de IA de concepto a producción con Amazon Bedrock AgentCore
Análisis detallado de cómo Amazon Bedrock AgentCore facilita la transición de aplicaciones de IA basadas en agentes desde un concepto de prueba hasta sistemas de producción empresariales, conservando memoria, seguridad, observabilidad y gestión escalable de herramientas.
Monitorear la inferencia por lotes de Bedrock de AWS con métricas de CloudWatch
Descubra cómo monitorear y optimizar trabajos de inferencia por lotes de Bedrock con métricas, alarmas y paneles de CloudWatch para mejorar rendimiento, costos y operación.
Solicitando precisión con Stability AI Image Services en Amazon Bedrock
Bedrock incorpora Stability AI Image Services con nueve herramientas para crear y editar imágenes con mayor precisión. Descubre técnicas de prompting para uso empresarial.
Escala la producción visual con Stability AI Image Services en Amazon Bedrock
Stability AI Image Services ya está disponible en Amazon Bedrock, ofreciendo capacidades de edición de imágenes listas para usar a través de la API de Bedrock y ampliando los modelos Stable Diffusion 3.5 y Stable Image Core/Ultra ya presentes.
Usar AWS Deep Learning Containers con Amazon SageMaker AI MLflow gestionado
Vea cómo los AWS Deep Learning Containers (DLCs) se integran con SageMaker AI gestionado por MLflow para equilibrar el control de la infraestructura y una gobernanza de ML sólida. Un flujo de TensorFlow para predicción de edad de abalones ilustra el seguimiento de extremo a extremo y la trazabilidad
Construir Flujos de Trabajo Agenticos con GPT OSS de OpenAI en SageMaker AI y Bedrock AgentCore
Visión general de extremo a extremo para implementar modelos GPT OSS de OpenAI en SageMaker AI y Bedrock AgentCore, impulsando un analizador de acciones multiagente con LangGraph, con cuantización MXFP4 de 4 bits y orquestación serverless.