Surveiller l’inférence par lot Bedrock d’AWS via les métriques CloudWatch

TL;DR

Bedrock batch inference permet le traitement en masse de grands ensembles de données à coût environ 50 % inférieur à l’inférence à la demande, ce qui le rend adapté à l’analyse historique, à la synthèse de textes à grande échelle et au traitement en arrière-plan.
Bedrock publie désormais automatiquement les métriques de batch inference dans CloudWatch, sous le namespace AWS/Bedrock/Batch.
Les métriques peuvent être visualisées par modelId et incluent les enregistrements en attente de traitement, les jetons d’entrée traités par minute et les jetons de sortie traités par minute; pour les modèles Anthropic Claude, les jetons en attente apparaissent aussi.
Vous pouvez démarrer un job de batch inference via la Console, les SDKs ou l’CLI AWS, puis surveiller la charge de travail avec CloudWatch Metrics Insights, les alarmes et les tableaux de bord.
La surveillance proactive et l’automatisation—par exemple des alarmes déclenchant des notifications SNS—peuvent aider à optimiser les performances et les coûts. Pour plus de détails, consultez l’article du blog AWS sur la surveillance du Bedrock batch inference avec les métriques CloudWatch AWS Blog.

Contexte et contexte historique

Alors que les organisations étendent leurs initiatives d’IA générative, de nombreuses charges de travail privilégient le traitement par bulk plutôt que les réponses en temps réel. Bedrock batch inference répond à ce besoin en permettant de traiter de grands ensembles de données par lots avec des performances prévisibles et à un coût inférieur à l’inférence à la demande. Le billet de blog souligne que Bedrock batch inference publie désormais des métriques dans CloudWatch sous le namespace AWS/Bedrock/Batch, offrant une visibilité sur le progrès des jobs et l’utilisation des ressources. Vous pouvez démarrer un job batch inference via la Console, les SDKs ou la CLI, puis surveiller les performances et le progrès via les métriques CloudWatch. Les métriques disponibles incluent actuellement: enregistrements en attente, jetons d’entrée traités par minute et jetons de sortie traités par minute; pour les modèles Anthropic Claude, les jetons en attente sont également reportés. Les métriques peuvent être visualisées par modelId, permettant de suivre les performances et les coûts au niveau du modèle. Cette nouvelle visibilité facilite l’analyse et le pilotage des charges batch et améliore la gouvernance du Bedrock batch inference. Si vous souhaitez explorer la visualisation et l’analyse de ces métriques, CloudWatch propose Metrics Insights pour interroger et visualiser les données du namespace AWS/Bedrock/Batch. Le billet aborde aussi les meilleures pratiques de surveillance, notamment les alertes proactives et l’automatisation pour répondre aux variations de charge et aux considérations de coût. L’objectif est de maximiser l’efficacité et la valeur du Bedrock batch inference grâce à des métriques, des alarmes et des tableaux de bord.

Quoi de neuf

Publication automatique des métriques de batch inference dans CloudWatch sous le namespace AWS/Bedrock/Batch.
Métriques dimensionnées par modelId: records pending processing, input tokens processed per minute et output tokens processed per minute; tokens pending processing pour les modèles Anthropic Claude.
Support étendu des modèles et meilleure visibilité du progrès des lots, permettant une surveillance et une résolution de problèmes plus fines.
Amélioration de la surveillance des coûts pour suivre et optimiser les charges par lot.
Flux de travail simplifiés pour démarrer un batch inference via Console, SDKs ou CLI et configurer alarmes et tableaux de bord pour les opérations. Ces améliorations apportent plus de transparence et de facilité d’utilisation à grande échelle. Vous pouvez commencer en lançant un batch inference, en configurant des alarmes CloudWatch et en construisant un tableau de bord pour observer les progrès et les tendances de coûts.

Pourquoi c’est important (impact pour les développeurs/entreprises)

Pour les développeurs et les entreprises, ce nouveau flux de travail de surveillance du Bedrock batch inference offre plusieurs bénéfices pratiques:

Visibilité proactive: les métriques CloudWatch offrent une visibilité en temps réel et historique sur les workloads batch, facilitant la détection de ralentissements, goulots et pics de coûts avant que cela n’impacte les parties prenantes.
Réponses automatisées: les alarmes et les notifications SNS permettent des réponses automatiques ou semi-automatisées, comme avertir l’équipe opérationnelle ou lancer des pipelines en aval.
Transparence des coûts: les métriques reflétant les jetons traités et en attente aident les équipes à comprendre les moteurs de coût et à optimiser le traitement par lots pour respecter les budgets.
Surveillance centralisée: les tableaux de bord centralisent les données, accélérant le diagnostic et la planification de capacité.
Gouvernance évolutive: les métriques par modèle aident à isoler les signaux de performances et de coût lorsque plusieurs modèles Bedrock sont exploités. Ces capacités s’alignent sur les objectifs d’entreprise visant à assurer des performances prévisibles pour les tâches d’IA en batch, à maîtriser les dépenses et à maintenir la préparation opérationnelle pour des workloads génératifs à grande échelle. Tout ceci provient de la combinaison des métriques CloudWatch, des alarmes et des tableaux de bord, désormais enrichies par la télémetrie Bedrock batch inference.

Détails techniques ou Implémentation

Démarrer et configurer Batch Inference

Vous pouvez démarrer un batch inference job dans Bedrock via la Console AWS, les SDKs ou la CLI AWS. Le billet souligne que le processus est pris en charge par ces interfaces, et que les détails d’implémentation se trouvent dans la documentation Bedrock.
Une fois le job en cours, Bedrock publiera des métriques pour ce job dans CloudWatch, sous le namespace AWS/Bedrock/Batch, offrant une visibilité sur le progrès et l’utilisation.

Métriques CloudWatch et où les voir

Les métriques clés à suivre incluent:
Records pending processing
Input tokens processed per minute
Output tokens processed per minute
Pour les modèles Anthropic Claude, la métrique tokens pending processing est également disponible. Ces métriques peuvent être vues par modelId, permettant un diagnostic par modèle.
Pour consulter et analyser ces métriques, vous pouvez utiliser le console CloudWatch et Metrics Insights pour interroger et visualiser les données du namespace AWS/Bedrock/Batch.

Exemples concrets: alertes et automatisation

Un exemple mentionné est la création d’une alarme CloudWatch qui se déclenche lorsque la moyenne de NumberOfInputTokensProcessedPerMinute dépasse 1 000 000 sur une période de 6 heures. Cette alarme peut envoyer une notification SNS à l’équipe d’exploitation ou déclencher des pipelines en aval.
Vous pouvez également créer un tableau de bord CloudWatch pour centraliser les métriques pertinentes, afin de faciliter le suivi et le dépannage.

Remarques techniques et meilleures pratiques

Utilisez des métriques par modelId pour diagnostiquer les performances ou les coûts au niveau du modèle, d’autant plus utile lorsque plusieurs modèles Bedrock sont en production.
Exploitez Metrics Insights pour des analyses ad hoc et la création de dashboards ciblés.
Combinez métriques, alertes et tableaux de bord dans une stratégie de surveillance proactive et d’automatisation pour maximiser l’efficacité et la valeur des charges Bedrock batch.

Points clés

Bedrock batch inference permet le traitement en bulk avec des performances prévisibles et à un coût inférieur à l’inférence à la demande.
Métrologies CloudWatch sous AWS/Bedrock/Batch avec granularité par modelId.
Alarmes et tableaux de bord pour la gestion proactive et le contrôle des coûts.
Flux de bout en bout: lancer un batch inference, configurer des alarmes CloudWatch, construire des tableaux de bord et surveiller en continu.