Anunciando la nueva experiencia de creación de clúster para Amazon SageMaker HyperPod
Sources: https://aws.amazon.com/blogs/machine-learning/announcing-the-new-cluster-creation-experience-for-amazon-sagemaker-hyperpod, https://aws.amazon.com/blogs/machine-learning/announcing-the-new-cluster-creation-experience-for-amazon-sagemaker-hyperpod/, AWS ML Blog
TL;DR
- SageMaker HyperPod ahora ofrece una experiencia de creación de clúster validada con un clic que aprovisiona los recursos prerequisitos y aplica valores por defecto prescriptivos automáticamente.
- Dos opciones de despliegue están disponibles en la Consola de Gestión de AWS para clústeres orquestados por Slurm o Amazon EKS: configuración rápida (quick setup) y configuración personalizada (custom setup).
- El despliegue crea una pila de CloudFormation para desplegar el clúster y sus recursos de apoyo, lo que facilita IaC y despliegues consistentes entre entornos.
- Configuración rápida prioriza valores por defecto automáticos, recuperación automática de instancias y componentes de red y almacenamiento, mientras que la configuración personalizada ofrece control granular para configuraciones avanzadas.
- La solución admite cargas de IA a gran escala con redes y almacenamiento de alto rendimiento (EFA y FSx for Lustre) y ofrece verificaciones de salud y aprovisionamiento continuo. Para más detalles, consulta el post oficial de AWS anunciando la función: AWS Blog – Anunciando la nueva experiencia de creación de clúster para Amazon SageMaker HyperPod.
Contexto y antecedentes
Amazon SageMaker HyperPod permite el entrenamiento e inferencia distribuidos en clústeres con cientos o miles de aceleradores de IA, utilizando orquestación Slurm o Amazon Elastic Kubernetes Service (Amazon EKS). Anteriormente, la configuración de un clúster HyperPod requería configurar múltiples recursos prerequisitos de AWS—como VPC, bucket S3, roles IAM y otros componentes—en un proceso de varias etapas propenso a errores. La nueva experiencia de creación de clúster cambia esto al permitir la creación en un solo clic con valores por defecto prescriptivos aplicados automáticamente, reduciendo las intervenciones manuales. Las opciones de despliegue de HyperPod se muestran en la Consola de AWS junto a los controles de AI de SageMaker, con dos rutas: configuración rápida y configuración personalizada. Cada ruta finalmente crea una pila de CloudFormation para provisionar el clúster y sus recursos de apoyo, permitiendo un enfoque de IaC declarativa reutilizable entre entornos. Este enfoque se alinea con buenas prácticas para implementaciones repetibles y auditable en la nube.
Qué hay de nuevo
Las mejoras principales giran en torno a una experiencia de creación de clúster validada y en un clic para HyperPod, incluyendo los recursos prerequisitos necesarios. Las dos opciones de despliegue abordan casos de uso comunes:
- Configuración rápida (quick setup): aplica valores predeterminados seguros para grupos de instancias, red, orquestación, scripts de ciclo de vida, permisos y almacenamiento. También habilita la recuperación automática de instancias.
- Configuración personalizada (custom setup): ofrece control granular sobre configuraciones y la capacidad de reutilizar recursos existentes. Los elementos de infraestructura creados o configurados durante el proceso incluyen:
- Una nueva VPC con subredes distribuidas entre Zonas de Disponibilidad (AZ), incluyendo una subred pública /24 para acceso a Internet vía NAT, una subred privada /24 para comunicaciones del plano de control de EKS y una subred privada /16 para soportar gran capacidad de instancias aceleradoras.
- Un nuevo grupo de seguridad configurado para el tráfico de Elastic Fabric Adapter (EFA) y FSx for Lustre.
- Un clúster Amazon EKS con la última versión de Kubernetes compatible, con operadores y plugins habilitados (EFA, Neuron, plugins de dispositivos NVIDIA), el agente de monitoreo de salud (HMA), operadores Kubeflow para entrenamiento y el operador de inferencia de SageMaker HyperPod.
- Un nuevo bucket S3 para almacenar scripts de ciclo de vida por defecto y un nuevo rol IAM con los permisos requeridos para el clúster HyperPod.
- Un FSx for Lustre para almacenamiento de alto rendimiento. Para quienes prefieren reutilizar recursos existentes, la configuración personalizada permite referenciar un VPC existente, un grupo de seguridad o un clúster EKS existente, y conectar un FSx for Lustre ya existente. También se puede especificar un CIDR personalizado para el VPC y seleccionar Zonas de Disponibilidad específicas para la creación de subredes.
Por qué importa (impacto para desarrolladores/empresas)
Al eliminar las etapas manuales de aprovisionamiento y ofrecer valores por defecto predefinidos, la nueva experiencia de creación de clúster reduce el riesgo de configuraciones incorrectas al configurar HyperPod. Esto acelera el tiempo de entrega para equipos que ejecutan entrenamientos de IA a gran escala, ajuste fino o inferencia en clústeres con numerosos aceleradores. La solución admite cargas de trabajo robustas y escalables y se alinea con prácticas de IaC, permitiendo a los ingenieros expresar estados deseados de forma declarativa a través de plantillas de CloudFormation y reutilizarlas entre entornos. La posibilidad de exportar una plantilla de CloudFormation preconfigurada facilita la integración con pipelines de CI/CD (p. ej., CodePipeline) para validación automatizada y promoción de cambios entre desarrollo, pruebas y producción, mejorando la gobernanza y la consistencia de los despliegues.
Detalles técnicos o Implementación
La experiencia de creación de clúster utiliza AWS CloudFormation para provisionar un clúster HyperPod y sus prerequisitos en una única operación declarativa. Cuando los usuarios inician la creación del clúster, el sistema despliega una pila de CloudFormation que orquesta la configuración de red, almacenamiento, identidad y recursos computacionales necesarios para HyperPod, asegurando un estado consistente entre entornos. Este enfoque de IaC permite despliegues complejos que abarcan varios servicios gestionados en una única solicitud. Dos modos de implementación están disponibles:
- Configuración rápida: aplica valores por defecto seguros para grupos de instancias, red, orquestación, scripts de ciclo de vida, permisos y almacenamiento. También indica qué configuraciones pueden modificarse después del despliegue y cuáles requerirían recrear recursos de AWS. La recuperación automática de instancias está habilitada por defecto.
- Configuración personalizada: ofrece control granular sobre las configuraciones y permite desactivar la recuperación automática de nodos si es necesario para resolver problemas o pruebas. También admite el modo de aprovisionamiento continuo, permitiendo iniciar múltiples operaciones de forma simultánea, incluso si no todas las instancias solicitadas están disponibles de inmediato. Detalles de red y capacidad:
- Configuración rápida crea una VPC con subredes distribuidas entre AZ, incluida una subred pública /24 para acceso a Internet, una subred privada /24 para comunicaciones del plano de control de EKS y una subred privada /16 para soportar gran capacidad de instancias aceleradoras.
- El rango /16 privado admite más de 65.000 direcciones IP privadas, útil para clústeres con muchos nodos que requieren múltiples direcciones IP por nodo.
- Para la orquestación EKS, la configuración rápida implementa un clúster EKS con la versión Kubernetes más reciente y habilita operadores/plugins (EFA, Neuron, plugins NVIDIA), el agente de monitoreo de salud (HMA), operadores Kubeflow para entrenamiento y el operador de inferencia de SageMaker HyperPod.
- El almacenamiento incluye FSx for Lustre y un bucket S3 para scripts de ciclo de vida. La configuración personalizada ofrece gran flexibilidad:
- Crear una nueva VPC con CIDR personalizado o reutilizar una VPC existente o grupo de seguridad.
- Elegir un clúster EKS existente o crear uno nuevo con versiones de Kubernetes configurables y subredes para garantizar conectividad entre el servidor API de Kubernetes y la VPC.
- Adjuntar FSx for Lustre existente o crear uno nuevo con múltiples opciones de rendimiento y capacidad.
- Añadir o personalizar grupos de instancias, incluyendo grupos estándar y restringidos, con modelos de capacidad para cargas puntuales o planes de entrenamiento flexibles para trabajos a gran escala.
- Control granular sobre operadores opcionales instalados en el clúster EKS mediante Helm charts.
- Scripts de ciclo de vida avanzados pueden extraerse de un bucket S3 existente para configuraciones personalizadas de marcos ML. Para desarrolladores que buscan observabilidad y resiliencia, el sistema admite verificaciones de salud profundas (stress y conectividad) además de las verificaciones básicas del orquestador. También puede ajustar el número de hilos por núcleo de CPU para influir en el rendimiento (uno o dos hilos por núcleo). Una copia del template CloudFormation utilizado para desplegar la configuración elegida está disponible para descarga desde la consola SageMaker AI, para usar con herramientas de entrega continua. Los overrides de parámetros pueden definirse en un archivo de configuración para facilitar promociones entre entornos de desarrollo, pruebas y producción.
Puntos clave
- La nueva experiencia de creación de clúster HyperPod en un clic simplifica el despliegue con provisión y valores por defecto prescriptivos.
- Configuración rápida prioriza velocidad y seguridad con recuperación automática y nuevos componentes de red/almacenamiento/clúster.
- Configuración personalizada ofrece control granular para usuarios avanzados y entornos que requieren recursos existentes.
- IaC basado en CloudFormation permite despliegues declarativos, reutilización de plantillas e integración con pipelines CI/CD.
- El modo de aprovisionamiento continuo y las verificaciones de salud aumentan la fiabilidad de cargas de trabajo de IA a gran escala.
- La opción de exportar y reutilizar plantillas de CloudFormation facilita despliegues consistentes entre múltiples entornos.
Preguntas frecuentes
Referencias
- AWS Blog: Anunciando la nueva experiencia de creación de clúster para Amazon SageMaker HyperPod — https://aws.amazon.com/blogs/machine-learning/announcing-the-new-cluster-creation-experience-for-amazon-sagemaker-hyperpod/
More news
Llevar agentes de IA de concepto a producción con Amazon Bedrock AgentCore
Análisis detallado de cómo Amazon Bedrock AgentCore facilita la transición de aplicaciones de IA basadas en agentes desde un concepto de prueba hasta sistemas de producción empresariales, conservando memoria, seguridad, observabilidad y gestión escalable de herramientas.
Monitorear la inferencia por lotes de Bedrock de AWS con métricas de CloudWatch
Descubra cómo monitorear y optimizar trabajos de inferencia por lotes de Bedrock con métricas, alarmas y paneles de CloudWatch para mejorar rendimiento, costos y operación.
Solicitando precisión con Stability AI Image Services en Amazon Bedrock
Bedrock incorpora Stability AI Image Services con nueve herramientas para crear y editar imágenes con mayor precisión. Descubre técnicas de prompting para uso empresarial.
Escala la producción visual con Stability AI Image Services en Amazon Bedrock
Stability AI Image Services ya está disponible en Amazon Bedrock, ofreciendo capacidades de edición de imágenes listas para usar a través de la API de Bedrock y ampliando los modelos Stable Diffusion 3.5 y Stable Image Core/Ultra ya presentes.
Usar AWS Deep Learning Containers con Amazon SageMaker AI MLflow gestionado
Vea cómo los AWS Deep Learning Containers (DLCs) se integran con SageMaker AI gestionado por MLflow para equilibrar el control de la infraestructura y una gobernanza de ML sólida. Un flujo de TensorFlow para predicción de edad de abalones ilustra el seguimiento de extremo a extremo y la trazabilidad
Construir Flujos de Trabajo Agenticos con GPT OSS de OpenAI en SageMaker AI y Bedrock AgentCore
Visión general de extremo a extremo para implementar modelos GPT OSS de OpenAI en SageMaker AI y Bedrock AgentCore, impulsando un analizador de acciones multiagente con LangGraph, con cuantización MXFP4 de 4 bits y orquestación serverless.