Qwen3-Next Modèles MoE Hybrides Open Source : Précision Améliorée et Inférence Plus Rapide sur la Plateforme NVIDIA

TL;DR

Alibaba a publié deux modèles open source Qwen3-Next, 80B-A3B-Thinking et 80B-A3B-Instruct, présentant une architecture hybride Mixture of Experts (MoE) qui vise à améliorer la précision tout en accélérant le traitement parallèle sur les plateformes NVIDIA.
Chaque modèle compte 80 milliards de paramètres, mais seulement environ 3 milliards sont activés par token en raison de la conception MoE creuse, offrant la puissance d’un modèle massif avec l’efficacité d’un modèle plus petit.
Le module MoE routage entre 512 experts plus 1 expert partagé, avec 10 experts activés par token, permettant une inférence évolutive et un routage flexible.
L’architecture prend en charge des longueurs de contexte supérieures à 260 000 tokens et utilise des Delta Networks gateés pour traiter efficacement les textes très longs, avec une croissance mémoire et calcul presque linéaire par longueur de séquence.
Lorsqu’il est exécuté sur le matériel NVIDIA Hopper et Blackwell, le système bénéficie d’un NVLink de 5e génération à 1,8 To/s de bande passante GPU-à-GPU, réduisant la latence du routage des experts et augmentant le débit de tokens.
NVIDIA collabore avec SGLang et vLLM pour déployer comme microservices NIM; les développeurs peuvent tester sur build.nvidia.com, accéder à des services NIM préconfigurés et explorer un guide Jupyter pour construire des agents IA via les endpoints NIM de Qwen3-Next.

Contexte et arrière-plan

À mesure que les modèles IA gagnent en taille, l’efficacité devient aussi importante que l’échelle. Les séquences d’entrée très longues deviennent courantes, et il est nécessaire d’adresser des architectures qui offrent une haute précision tout en maintenant un débit raisonnable. Dans ce cadre, Alibaba a publié deux modèles Qwen3-Next open source—80B-A3B-Thinking et 80B-A3B-Instruct—pour démontrer une nouvelle approche hybride MoE destinée à la recherche et au développement. La famille Qwen3-Next vise à offrir les capacités de modèles très grands tout en maîtrisant l’usage des ressources grâce à la sparsité et à une communication inter-GPU optimisée. Cette initiative s’inscrit dans l’écosystème open source de NVIDIA, qui inclut des projets comme NeMo pour la gestion du cycle de vie de l’IA, Nemotron LLMs et Cosmos world foundation models (WFMs). L’objectif est d’accélérer l’innovation en rendant les modèles d’avant-garde plus accessibles, transparents et collaboratifs pour chercheurs et développeurs. NVIDIA met l’accent sur des voies d deployment ouvertes par le biais de frameworks open source comme SGLang et vLLM, et en empaquetant les modèles comme NVIDIA NIM (NVIDIA Inference Modules). Cette approche permet aux chercheurs et entreprises d’expérimenter et de déployer les Qwen3-Next via des endpoints hébergés ou des containers sur site, tout en explorant des workflows pratiques pour la construction d’agents dans des notebooks. L’objectif central de la conception hybride MoE est d’étendre l’efficacité et le raisonnement. L’association d’un routage MoE sparse avec des variantes d’attention optimisées et de nouveaux primitives mémoire-efficaces montre comment des modèles à grande échelle peuvent être accessibles et évalués par la communauté sans sacrifier la performance.

Ce qu’il y a de nouveau

Les previews Qwen3-Next 80B-A3B-Thinking et 80B-A3B-Instruct introduisent plusieurs innovations architecturales et de déploiement :

Échelle et sparsité du modèle : chaque modèle compte 80 milliards de paramètres, mais seulement 3 milliards sont activés par token grâce à la structure MoE sparse. Cela permet une grande capacité avec un coût computationnel maîtrisé.
Routage MoE et capacité : le module MoE comprend 512 experts routés plus 1 expert partagé, avec 10 experts activés par token. Ce routage permet une utilisation dynamique des sous-modules selon l’entrée, améliorant l’efficacité pour diverses tâches.
Contexte long : l’architecture est optimisée pour des longueurs de contexte supérieures à 260K tokens, soutenue par des primitives mémoire et calcul efficaces.
Design d’attention : le modèle possède 48 couches, chaque 4e couche appliquant une attention GQA tandis que les autres couches utilisent une variante d’attention linéaire. Cette approche hybride équilibre expressivité et efficacité pour les séquences longues.
Delta Networks Gateés : les contributions des chercheurs en Delta Networks améliorent le focus lors du traitement de longs contextes, réduisant le drift et maintenant les informations pertinentes sur de longues passages.
Matériel et interconnecteurs : les modèles sont conçus pour fonctionner sur les GPUs NVIDIA Hopper et Blackwell, utilisant NVLink 5e génération avec 1,8 To/s de bande passante pour réduire la latence du routage et soutenir des débits plus élevés.
Logiciel et déploiement : l’approche hybride MoE est compatible avec CUDA et les outils de plateformes NVIDIA, permettant à la fois des couches d’attention complètes et des couches d’attention linéaire dans la stack Qwen3-Next. NVIDIA collabore aussi avec SGLang et vLLM pour faciliter le déploiement et l’empaquetage sous forme de microservices NIM, avec des endpoints hébergés et des déploiements sur site sécurisés.
Accès ouvert et tooling : les développeurs peuvent tester les modèles sur build.nvidia.com, utiliser les endpoints NIM pour un déploiement pratique et explorer des guides Jupyter pour construire des agents avec les endpoints NIM du Qwen3-Next.

Pourquoi cela compte (impact pour les développeurs/entreprises)

La conception hybride MoE du Qwen3-Next vise à offrir des gains concrets en raisonnement et en throughput. En activant uniquement une faible fraction du modèle par token, ces architectures tentent de concilier la puissance de grands modèles avec l’efficacité typiquement associée à des modèles plus petits. Pour les développeurs et les entreprises, la nature open source de Qwen3-Next et les outils de déploiement NVIDIA réduisent les obstacles à l’expérimentation et à l’intégration en production. Les microservices NIM fournissent des endpoints prêts à l’emploi, tandis que les options on-site offrent des environnements sécurisés pour les flux IA en interne. La collaboration avec SGLang et vLLM diminue encore les frictions d’intégration pour le serving et l’expérimentation. D’un point de vue matériel, l’utilisation des GPUs Hopper et Blackwell avec NVLink à grande vitesse réduit la latence du routage entre des centaines d’experts et soutient un débit accru pour les charges de travail d’inférence IA. En pratique, cela peut se traduire par des réponses plus rapides pour des tâches de raisonnement à contexte long, un débit de tokens accru et des agents IA plus scalables en production. L’écosystème ouvert NVIDIA illustre un engagement envers l’ouverture, favorisant la collaboration entre chercheurs, développeurs et entreprises afin d’étendre l’accès à des architectures de pointe et de promouvoir la transparence et la co-création. En fournissant des déploiements de référence, des notebooks et des containers, NVIDIA cherche à accélérer l’innovation et à élargir l’accès aux architectures de modèles avancées.

Détails techniques ou Implémentation

Spécifications clés en bref

| Attribut | Valeur

---
Taille du modèle
Paramètres actifs par token
Routage MoE
Experts activés par token
Nombre de couches
Schéma d’attention
Longueur de contexte
Bande passante entre GPUs
Plateformes cibles
Options de déploiement
Disponibilité

Remarques techniques

L’approche hybride MoE du Qwen3-Next répartit dynamiquement le calcul entre des centaines d’experts. Avec 10 experts actifs par token, le routage permet de distribuer le traitement, rendant possible une scalabilité du throughput et une amélioration du raisonnement pour des entrées variées. L’association d’une attention GQA et d’une attention linéaire sur 48 couches cherche à équilibrer la capacité de modélisation des dépendances à longue portée avec les contraintes computationnelles. Les Delta Networks gateés sont décrites comme permettant un meilleur maintien de l’attention sur des contextes très longs, réduisant le drift et conservant les informations pertinentes sur des passages étendus. Cela aide à faire croître la mémoire et le calcul presque linéairement avec la taille de la séquence. Du point de vue du deployment, l’intégration avec CUDA et les outils de plateforme de NVIDIA, associée à la collaboration avec SGLang et vLLM, crée des pistes pratiques pour la recherche et la production. Les entreprises peuvent explorer Qwen3-Next via des endpoints hébergés ou via des microservices sur site sécurisés et soutenus par des frameworks ouverts.

Points clés à retenir

Qwen3-Next introduit une approche MoE esparse avec 80B paramètres, mais seulement 3B actifs par token, combinant grande capacité et efficacité.
Capacité de contexte long (>260K tokens) associée à une scalabilité mémoire et calcul grâce aux Delta Networks gateés et à une combinaison d’attention GQA et linéaire.
Interconnexions rapides (NVLink 1,8 To/s) et plateformes GPU (Hopper/Blackwell) pour réduire la latence et augmenter le débit.
Accès ouvert via NIM de NVIDIA, SGLang et vLLM pour le développement et le déploiement; déploiements de référence, notebooks et endpoints disponibles.
Le travail illustre l’engagement de NVIDIA envers l’ouverture, visant à élargir l’accès, la transparence et la collaboration dans l’IA.

FAQ

Qu’est-ce que le modèle 80B-A3B-Thinking du Qwen3-Next ?

C’est un modèle open source de 80 milliards de paramètres, conçu pour fonctionner avec une architecture hybride MoE esparse, permettant environ 3 milliards d’actifs par token et un traitement de contexte long.
Comment fonctionne l’architecture MoE dans ces modèles ?

Le module MoE comprend 512 experts routés plus 1 expert partagé, avec 10 experts activés par token. Ce routage distribue la computation entre sous-modules pour équilibrer capacité et efficacité.
u’est-ce qui permet le contexte long et l’efficacité ?

Un contexte de plus de 260 000 tokens, Delta Networks gateés pour maintenir le focus sur de longues séquences et une combinaison d’attention GQA et linéaire sur 48 couches.
Comment les développeurs peuvent-ils accéder et déployer ces modèles ?

Via build.nvidia.com pour les tests, deployment avec les microservices NIM, et options on-site sécurisées avec support SGLang et vLLM.
uelle est la portée plus large de ce travail ?

Il illustre une voie vers des modèles de grande échelle avec une efficacité pratique, favorise le code ouvert et fournit des chemins concrets de déploiement sur les plateformes NVIDIA. ---

Qwen3-Next Modèles MoE Hybrides Open Source : Précision Améliorée et Inférence Plus Rapide sur la Plateforme NVIDIA

TL;DR

Contexte et arrière-plan

Ce qu’il y a de nouveau

Pourquoi cela compte (impact pour les développeurs/entreprises)

Détails techniques ou Implémentation

Spécifications clés en bref

Remarques techniques

Points clés à retenir

FAQ

Références

More news

NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé

Scaleway rejoint les Fournisseurs d’Inference de Hugging Face pour une Inférence Serverless et Faible Latence

Prévoir les phénomènes météorologiques extrêmes en quelques minutes sans superordinateur : Huge Ensembles (HENS)

Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo

Le Playbook des Grands Maîtres Kaggle: 7 Techniques de Modélisation pour Données Tabulaires

NVIDIA RAPIDS 25.08 Ajoute un Nouveau Profiler pour cuML, Améliorations du moteur GPU Polars et Support d’Algorithmes Étendu