Surveiller l’inférence par lot Bedrock d’AWS via les métriques CloudWatch
Sources: https://aws.amazon.com/blogs/machine-learning/monitor-amazon-bedrock-batch-inference-using-amazon-cloudwatch-metrics, https://aws.amazon.com/blogs/machine-learning/monitor-amazon-bedrock-batch-inference-using-amazon-cloudwatch-metrics/, AWS ML Blog
TL;DR
- Bedrock batch inference permet le traitement en masse de grands ensembles de données à coût environ 50 % inférieur à l’inférence à la demande, ce qui le rend adapté à l’analyse historique, à la synthèse de textes à grande échelle et au traitement en arrière-plan.
- Bedrock publie désormais automatiquement les métriques de batch inference dans CloudWatch, sous le namespace AWS/Bedrock/Batch.
- Les métriques peuvent être visualisées par modelId et incluent les enregistrements en attente de traitement, les jetons d’entrée traités par minute et les jetons de sortie traités par minute; pour les modèles Anthropic Claude, les jetons en attente apparaissent aussi.
- Vous pouvez démarrer un job de batch inference via la Console, les SDKs ou l’CLI AWS, puis surveiller la charge de travail avec CloudWatch Metrics Insights, les alarmes et les tableaux de bord.
- La surveillance proactive et l’automatisation—par exemple des alarmes déclenchant des notifications SNS—peuvent aider à optimiser les performances et les coûts. Pour plus de détails, consultez l’article du blog AWS sur la surveillance du Bedrock batch inference avec les métriques CloudWatch AWS Blog.
Contexte et contexte historique
Alors que les organisations étendent leurs initiatives d’IA générative, de nombreuses charges de travail privilégient le traitement par bulk plutôt que les réponses en temps réel. Bedrock batch inference répond à ce besoin en permettant de traiter de grands ensembles de données par lots avec des performances prévisibles et à un coût inférieur à l’inférence à la demande. Le billet de blog souligne que Bedrock batch inference publie désormais des métriques dans CloudWatch sous le namespace AWS/Bedrock/Batch, offrant une visibilité sur le progrès des jobs et l’utilisation des ressources. Vous pouvez démarrer un job batch inference via la Console, les SDKs ou la CLI, puis surveiller les performances et le progrès via les métriques CloudWatch. Les métriques disponibles incluent actuellement: enregistrements en attente, jetons d’entrée traités par minute et jetons de sortie traités par minute; pour les modèles Anthropic Claude, les jetons en attente sont également reportés. Les métriques peuvent être visualisées par modelId, permettant de suivre les performances et les coûts au niveau du modèle. Cette nouvelle visibilité facilite l’analyse et le pilotage des charges batch et améliore la gouvernance du Bedrock batch inference. Si vous souhaitez explorer la visualisation et l’analyse de ces métriques, CloudWatch propose Metrics Insights pour interroger et visualiser les données du namespace AWS/Bedrock/Batch. Le billet aborde aussi les meilleures pratiques de surveillance, notamment les alertes proactives et l’automatisation pour répondre aux variations de charge et aux considérations de coût. L’objectif est de maximiser l’efficacité et la valeur du Bedrock batch inference grâce à des métriques, des alarmes et des tableaux de bord.
Quoi de neuf
- Publication automatique des métriques de batch inference dans CloudWatch sous le namespace AWS/Bedrock/Batch.
- Métriques dimensionnées par modelId: records pending processing, input tokens processed per minute et output tokens processed per minute; tokens pending processing pour les modèles Anthropic Claude.
- Support étendu des modèles et meilleure visibilité du progrès des lots, permettant une surveillance et une résolution de problèmes plus fines.
- Amélioration de la surveillance des coûts pour suivre et optimiser les charges par lot.
- Flux de travail simplifiés pour démarrer un batch inference via Console, SDKs ou CLI et configurer alarmes et tableaux de bord pour les opérations. Ces améliorations apportent plus de transparence et de facilité d’utilisation à grande échelle. Vous pouvez commencer en lançant un batch inference, en configurant des alarmes CloudWatch et en construisant un tableau de bord pour observer les progrès et les tendances de coûts.
Pourquoi c’est important (impact pour les développeurs/entreprises)
Pour les développeurs et les entreprises, ce nouveau flux de travail de surveillance du Bedrock batch inference offre plusieurs bénéfices pratiques:
- Visibilité proactive: les métriques CloudWatch offrent une visibilité en temps réel et historique sur les workloads batch, facilitant la détection de ralentissements, goulots et pics de coûts avant que cela n’impacte les parties prenantes.
- Réponses automatisées: les alarmes et les notifications SNS permettent des réponses automatiques ou semi-automatisées, comme avertir l’équipe opérationnelle ou lancer des pipelines en aval.
- Transparence des coûts: les métriques reflétant les jetons traités et en attente aident les équipes à comprendre les moteurs de coût et à optimiser le traitement par lots pour respecter les budgets.
- Surveillance centralisée: les tableaux de bord centralisent les données, accélérant le diagnostic et la planification de capacité.
- Gouvernance évolutive: les métriques par modèle aident à isoler les signaux de performances et de coût lorsque plusieurs modèles Bedrock sont exploités. Ces capacités s’alignent sur les objectifs d’entreprise visant à assurer des performances prévisibles pour les tâches d’IA en batch, à maîtriser les dépenses et à maintenir la préparation opérationnelle pour des workloads génératifs à grande échelle. Tout ceci provient de la combinaison des métriques CloudWatch, des alarmes et des tableaux de bord, désormais enrichies par la télémetrie Bedrock batch inference.
Détails techniques ou Implémentation
Démarrer et configurer Batch Inference
- Vous pouvez démarrer un batch inference job dans Bedrock via la Console AWS, les SDKs ou la CLI AWS. Le billet souligne que le processus est pris en charge par ces interfaces, et que les détails d’implémentation se trouvent dans la documentation Bedrock.
- Une fois le job en cours, Bedrock publiera des métriques pour ce job dans CloudWatch, sous le namespace AWS/Bedrock/Batch, offrant une visibilité sur le progrès et l’utilisation.
Métriques CloudWatch et où les voir
- Les métriques clés à suivre incluent:
- Records pending processing
- Input tokens processed per minute
- Output tokens processed per minute
- Pour les modèles Anthropic Claude, la métrique tokens pending processing est également disponible. Ces métriques peuvent être vues par modelId, permettant un diagnostic par modèle.
- Pour consulter et analyser ces métriques, vous pouvez utiliser le console CloudWatch et Metrics Insights pour interroger et visualiser les données du namespace AWS/Bedrock/Batch.
Exemples concrets: alertes et automatisation
- Un exemple mentionné est la création d’une alarme CloudWatch qui se déclenche lorsque la moyenne de NumberOfInputTokensProcessedPerMinute dépasse 1 000 000 sur une période de 6 heures. Cette alarme peut envoyer une notification SNS à l’équipe d’exploitation ou déclencher des pipelines en aval.
- Vous pouvez également créer un tableau de bord CloudWatch pour centraliser les métriques pertinentes, afin de faciliter le suivi et le dépannage.
Remarques techniques et meilleures pratiques
- Utilisez des métriques par modelId pour diagnostiquer les performances ou les coûts au niveau du modèle, d’autant plus utile lorsque plusieurs modèles Bedrock sont en production.
- Exploitez Metrics Insights pour des analyses ad hoc et la création de dashboards ciblés.
- Combinez métriques, alertes et tableaux de bord dans une stratégie de surveillance proactive et d’automatisation pour maximiser l’efficacité et la valeur des charges Bedrock batch.
Points clés
- Bedrock batch inference permet le traitement en bulk avec des performances prévisibles et à un coût inférieur à l’inférence à la demande.
- Métrologies CloudWatch sous AWS/Bedrock/Batch avec granularité par modelId.
- Alarmes et tableaux de bord pour la gestion proactive et le contrôle des coûts.
- Flux de bout en bout: lancer un batch inference, configurer des alarmes CloudWatch, construire des tableaux de bord et surveiller en continu.
FAQ
Références
- AWS Blog: Monitorer Bedrock batch inference via les métriques CloudWatch. https://aws.amazon.com/blogs/machine-learning/monitor-amazon-bedrock-batch-inference-using-amazon-cloudwatch-metrics/
More news
Faire passer vos agents IA du concept à la production avec Amazon Bedrock AgentCore
Une exploration détaillée de la façon dont Amazon Bedrock AgentCore aide à faire passer des applications IA basées sur des agents du proof of concept à des systèmes de production de niveau entreprise, en préservant mémoire, sécurité, observabilité et gestion d’outils à l’échelle.
Scaleway rejoint les Fournisseurs d’Inference de Hugging Face pour une Inférence Serverless et Faible Latence
Scaleway est désormais un Fournisseur d’Inference pris en charge sur Hugging Face Hub, permettant l’inférence serverless directement sur les pages de modèles avec les SDK JS et Python. Accédez à des modèles open-weight populaires et bénéficiez d’une latence réduite.
Prompting pour la précision avec Stability AI Image Services sur Amazon Bedrock
Bedrock intègre Stability AI Image Services avec neuf outils pour créer et modifier des images avec précision. Apprenez les techniques de prompting adaptées à l’entreprise.
Utiliser les AWS Deep Learning Containers avec SageMaker AI géré MLflow
Découvrez comment les AWS Deep Learning Containers (DLCs) s’intègrent à SageMaker AI géré par MLflow pour équilibrer le contrôle de l’infrastructure et une gouvernance ML robuste. Un flux TensorFlow pour la prédiction de l’âge des abalones illustre le suivi de bout en bout et la traçabilité des modè
Évoluer la production visuelle avec Stability AI Image Services dans Amazon Bedrock
Stability AI Image Services est désormais disponible dans Amazon Bedrock, offrant des capacités d’édition d’images prêtes à l’emploi via l’API Bedrock et étendant les modèles Stable Diffusion 3.5 et Stable Image Core/Ultra déjà présents.
Créer des flux de travail agentiques avec GPT OSS d’OpenAI sur SageMaker AI et Bedrock AgentCore
Vue d’ensemble complète sur le déploiement des modèles GPT OSS d’OpenAI sur SageMaker AI et Bedrock AgentCore pour alimenter un analyseur d’actions multi-agents avec LangGraph, incluant la quantification MXFP4 en 4 bits et une orchestration sans serveur.