Modèles Falcon-H1 de TII disponibles sur Amazon Bedrock Marketplace et SageMaker JumpStart
Sources: https://aws.amazon.com/blogs/machine-learning/tii-falcon-h1-models-now-available-on-amazon-bedrock-marketplace-and-amazon-sagemaker-jumpstart, https://aws.amazon.com/blogs/machine-learning/tii-falcon-h1-models-now-available-on-amazon-bedrock-marketplace-and-amazon-sagemaker-jumpstart/, AWS ML Blog
TL;DR
- Les modèles Falcon-H1 de la Technology Innovation Institute (TII) sont désormais disponibles sur Amazon Bedrock Marketplace et Amazon SageMaker JumpStart. Six modèles à instruction sont proposés : 0,5B, 1,5B, 1,5B-Deep, 3B, 7B et 34B.
- Falcon-H1 adopte une conception hybride parallèle qui combine les modèles d’espace d’états (SSM) tels que Mamba avec l’attention des Transformers pour offrir une inférence plus rapide et une empreinte mémoire plus faible, tout en conservant une bonne compréhension du contexte.
- La famille Falcon-H1 offre une prise en charge multilingue native sur 18 langues et prend en charge jusqu’à 256K de contexte, disponibles sous la licence Falcon LLM.
- Les options de déploiement incluent Bedrock Marketplace et SageMaker JumpStart, avec des étapes guidées, des terrains d’essai et une intégration avec les API Bedrock et les outils SageMaker pour un déploiement sécurisé et un ajustement fin.
Contexte et arrière-plan
La famille Falcon-H1 provient de la Technology Innovation Institute (TII), institution de recherche basée à Abu Dhabi et faisant partie de l’ATRC (Conseil pour la Recherche sur les Technologies Avancées des Émirats Arabes Unis). La TII se concentre sur l’IA, l’informatique quantique, la robotique autonome, la cryptographie et plus encore. AWS et TII collaborent pour élargir l’accès aux modèles d’IA originaires des Émirats Arabes Unis à l’échelle mondiale, permettant aux professionnels de construire et de faire évoluer des applications d’IA générative avec les modèles Falcon-H1. L’architecture Falcon-H1 met en œuvre une conception hybride parallèle qui combine l’inférence rapide et la faible empreinte mémoire des SSM avec la capacité d’attention des Transformers pour comprendre le contexte et généraliser. Cette conception s’appuie sur des notions tirées de Mamba et de l’architecture des Transformers, afin d’offrir une efficacité tout en préservant les performances attendues des LLM modernes. La famille Falcon-H1 va de 0,5 à 34 milliards de paramètres et offre un support natif pour 18 langues. Selon TII, les variantes plus petites affichent une efficacité notable en atteignant une parité de performance avec les modèles plus volumineux dans de nombreux scénarios. TII publie les modèles Falcon-H1 sous la licence Falcon LLM afin de favoriser l’accessibilité et la collaboration dans le domaine de l’IA, tout en soutenant les contrôles de gouvernance et de sécurité. La disponibilité sur Bedrock Marketplace et JumpStart permet aux développeurs de comparer des modèles propriétaires et publics dans un cadre unifié et d’utiliser l’infrastructure AWS pour sécuriser, faire évoluer et optimiser les coûts. Le post décrit également comment tester Falcon-H1-0,5B-Instruct dans le Bedrock Playground et invoquer le modèle via l’API Bedrock Converse, en remplaçant les éléments par l’ARN du point de terminaison commençant par arn:aws:sagemaker. Du point de vue de la plateforme, Bedrock Marketplace donne accès à des centaines de modèles via des API unifiées, avec des options de type d’instance et des configurations de sécurité telles que VPC et clés de cryptage. JumpStart offre des flux de travail prêts à l’emploi via SageMaker Studio, le SDK SageMaker et la Console, facilitant l’intégration dans les pipelines ML existants. Le post montre comment déployer Falcon-H1-0,5B-Instruct via le SDK Python de SageMaker, et comment le faire via JumpStart, en fournissant un exemple de code et les étapes pour npmployer le modèle dans Studio. Le parcours JumpStart met l’accent sur la fin-à-fin de déploiement, de test et d’intégration dans des applications. Pour les organisations qui évaluent Bedrock Marketplace ou SageMaker JumpStart, le post donne des indications sur le choix entre ces deux options en fonction des cas d’usage, des charges de travail et des exigences de sécurité. Le partenariat entre TII et AWS vise à étendre l’accès aux capacités IA d’origine UAE dans le monde entier, en maintenant la sécurité et la gouvernance. Vous pouvez en savoir plus sur Bedrock et JumpStart dans les ressources técnicas et les références mentionnées ci-dessous. La famille Falcon-H1 met l’accent sur le support multilingue sur 18 langues et sur une échelle allant de 0,5B à 34B paramètres, avec jusqu’à 256K de contexte. Cette combinaison vise à offrir des modèles LLM génératifs efficaces et performants pour une variété d’applications, opérant sur l’infrastructure cloud AWS via Bedrock et JumpStart. Vous pouvez explorer ces modèles dans les régions AWS où Bedrock et JumpStart sont disponibles, selon les disponibilités régionales et les exigences de conformité. Pour plus de contexte sur les objectifs plus larges de cette collaboration, consultez le AWS Machine Learning Blog et les ressources associées mentionnées dans la section Références.
What’s new
- Six modèles Falcon-H1 avec instruction sont désormais disponibles sur Bedrock Marketplace et JumpStart SageMaker: 0,5B, 1,5B, 1,5B-Deep, 3B, 7B et 34B.
- L’architecture Falcon-H1 utilise un design hybride parallèle qui fusionne SSM et attention Transformer pour optimiser la vitesse d’inférence et l’utilisation de la mémoire.
- Support multilingue native sur 18 langues, avec une longueur de contexte allant jusqu’à 256K, à travers les tailles de modèle.
- Les modèles sont publiés sous la licence Falcon LLM et accessibles via Bedrock Marketplace APIs ou les flux JumpStart pour le déploiement, permettant découverte, test et utilisation en production.
- Des guides pratiques de déploiement sont fournis pour Bedrock Marketplace et JumpStart, y compris un Bedrock playground pour les tests et des exemples utilisant l’API Bedrock Converse, ainsi qu’un flux SageMaker Python SDK pour les déploiements JumpStart.
- Les prérequis pour le déploiement Bedrock comprennent la possession d’un compte AWS avec une quota suffisante pour les endpoints ml.g6.xlarge; les augmentations de quota peuvent être demandées via AWS Service Quotas.
- Le post illustre un flux de déploiement de bout en bout pour Falcon-H1-0,5B-Instruct comme exemple, avec des étapes applicables aux autres modèles Falcon-H1 de la famille, selon la disponibilité des quotas et des ressources.
Tableau récapitulatif du modèle
| Modèle | Paramètres | Longueur de contexte | Langues | Architecture |---|---|---|---|---| | 0,5B | 0,5B | 256K | 18 | Hybride SSM (Mamba) + Attention Transformer |1,5B | 1,5B | 256K | 18 | Hybride SSM + Attention Transformer |1,5B-Deep | 1,5B | 256K | 18 | Hybride SSM + Attention Transformer |3B | 3B | 256K | 18 | Hybride SSM + Attention Transformer |7B | 7B | 256K | 18 | Hybride SSM + Attention Transformer |34B | 34B | 256K | 18 | Hybride SSM + Attention Transformer |
Pourquoi cela compte pour les développeurs/entreprises
- Accessibilité et évolutivité: Bedrock Marketplace et JumpStart offrent des chemins unifiés pour découvrir, comparer et déployer des modèles LLM avancés, facilitant l’évaluation du Falcon-H1 par rapport à d’autres modèles et le choix du meilleur fit pour les charges de travail.
- Portée mondiale avec IA d’origine UAE: la collaboration apporte des capacités IA d’origine UAE à un public international, s’inscrivant dans les objectifs régionaux et la UAE National AI Strategy 2031.
- Efficacité et coût: le design hybride améliore l’inférence tout en contrôlant l’usage mémoire, ce qui permet des déploiements à grande échelle avec des coûts maîtrisés.
- Sécurité et gouvernance: les déploiements Bedrock et JumpStart peuvent être configurés dans un VPC, avec options de clés de cryptage et d’étiquetage des ressources pour répondre aux politiques de sécurité.
- Capacités multilingues: avec 18 langues prises en charge, Falcon-H1 convient aux applications multilingues et à l’assistance client globale.
Détails techniques ou Implémentation
La famille Falcon-H1 couvre de 0,5B à 34B paramètres et s’appuie sur un design hybride parallèle qui mixe SSM et l’attention Transformer. Les SSM comme Mamba permettent une inférence rapide et une faible empreinte mémoire, tandis que l’attention du Transformer assure la compréhension du contexte et la généralisation. Cette combinaison offre des gains d’efficacité dans tous les tailles et prend en charge jusqu’à 256K de contexte et 18 langues. Les voies d’implémentation sont Bedrock Marketplace et SageMaker JumpStart. Bedrock propose un catalogue central avec des API unifiées, des options de type d’instance et des configurations de sécurité telles que VPC et clés de cryptage. JumpStart facilite des flux de travail prêts à l’emploi via Studio, le SDK SageMaker et la Console, simplifiant l’intégration dans des pipelines ML existants. Pré-requis et considérations opérationnelles:
- L’implémentation Bedrock exige un compte AWS avec une cotisation suffisante pour les endpoints ml.g6.xlarge; les augmentations doivent être demandées via AWS Service Quotas.
- Après expérimentation, il est important de supprimer les endpoints et ressources associées pour éviter des frais continuels, selon les directives de SageMaker.
- Bien que l’article utilise Falcon-H1-0,5B-Instruct comme exemple, les mêmes étapes s’appliquent aux autres modèles Falcon-H1 de la famille, sous réserve des quotas et disponibilités.
Points clés
- Falcon-H1 ouvre l’accès à des modèles LLM fabriqués dans les EAU via Bedrock et JumpStart, élargissant les options pour le développement IA.
- Le design hybride SSM/Transformer offre une efficacité et une performance suffisantes pour une variété d’applications, avec un support linguistique sur 18 langues et jusqu’à 256K de contexte.
- Déploiements via Bedrock Playground ou JumpStart, avec Studio et SDK pour l’intégration dans des pipelines existants.
- Licence Falcon LLM soutien une approche collaborative et sécurisée de l’IA, avec des contrôles de sécurité et de gouvernance.
- Planification des prérequis et gestion des coûts; prévoir les demandes de quota et la suppression des ressources après les essais.
FAQ
-
- **Q : Quels modèles Falcon-H1 sont disponibles sur Bedrock Marketplace et JumpStart ?**
Six modèles: 0,5B, 1,5B, 1,5B-Deep, 3B, 7B et 34B. - **Q : Comment déployer Falcon-H1 sur Bedrock vs JumpStart ?** **A :** Bedrock offre la découverte des modèles, des API unifiées et des options de configuration; JumpStart propose Studio, le SDK SageMaker et des flux de déploiement pour la production et l’intégration dans les pipelines ML. - **Q : Quels prérequis pour le déploiement Bedrock ?** **A :** Compte AWS avec quota suffisant pour les endpoints ml.g6.xlarge; demander une augmentation si nécessaire via AWS Service Quotas. - **Q : Quelles sont les capacités des Falcon-H1 ?** **A :** Support multilingue sur 18 langues, jusqu’à 256K de contexte, et une plage de tailles 0,5B à 34B paramètres, avec architecture hybride SSM/Transformer et licence Falcon LLM. - **Q : Comment gérer les ressources pour éviter les frais ?** **A :** Supprimer les endpoints et ressources associées après les essais, conformément aux pratiques recommandées par SageMaker.
Références
More news
NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé
Le HGX B200 de NVIDIA abaisse l’intensité des émissions de carbone incorporé de 24% par rapport au HGX H100, tout en offrant de meilleures performances IA et une efficacité énergétique accrue. Cet article résume les données PCF et les nouveautés matérielles.
Faire passer vos agents IA du concept à la production avec Amazon Bedrock AgentCore
Une exploration détaillée de la façon dont Amazon Bedrock AgentCore aide à faire passer des applications IA basées sur des agents du proof of concept à des systèmes de production de niveau entreprise, en préservant mémoire, sécurité, observabilité et gestion d’outils à l’échelle.
Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo
NVIDIA Dynamo déporte le KV Cache depuis la mémoire GPU vers un stockage économique, permettant des contextes plus longs, une meilleure concurrence et des coûts d’inférence réduits pour les grands modèles et les charges AI génératives.
Surveiller l’inférence par lot Bedrock d’AWS via les métriques CloudWatch
Apprenez à surveiller et optimiser les jobs d’inférence par lot Bedrock via CloudWatch, with alertes et tableaux de bord pour améliorer les performances, les coûts et l’exploitation.
Prompting pour la précision avec Stability AI Image Services sur Amazon Bedrock
Bedrock intègre Stability AI Image Services avec neuf outils pour créer et modifier des images avec précision. Apprenez les techniques de prompting adaptées à l’entreprise.
Utiliser les AWS Deep Learning Containers avec SageMaker AI géré MLflow
Découvrez comment les AWS Deep Learning Containers (DLCs) s’intègrent à SageMaker AI géré par MLflow pour équilibrer le contrôle de l’infrastructure et une gouvernance ML robuste. Un flux TensorFlow pour la prédiction de l’âge des abalones illustre le suivi de bout en bout et la traçabilité des modè