Identifier les locuteurs en temps réel dans les réunions, appels et applications vocales avec NVIDIA Streaming Sortformer
Sources: https://developer.nvidia.com/blog/identify-speakers-in-meetings-calls-and-voice-apps-in-real-time-with-nvidia-streaming-sortformer, developer.nvidia.com
TL;DR
- NVIDIA Streaming Sortformer est un modèle de diarisation open, prêt pour la production, conçu pour des scénarios réels avec plusieurs locuteurs en temps réel.
- Il s’intègre à NVIDIA NeMo et NVIDIA Riva et peut être inséré dans des pipelines de transcription, l’orchestration de voicebots en direct ou des analyses de réunions d’entreprise.
- Le modèle utilise un Arrival-Order Speaker Cache (AOSC) pour suivre les locuteurs au fil des segments audio se chevauchant, permettant une étiquette cohérente tout au long du flux.
- Il traite l’audio en petits segments qui se chevauchent pour assurer une faible latence en temps réel.
- NVIDIA présente une diarisation pratique en production, pas seulement en recherche, avec une référence à des travaux complémentaires via Offline Sortformer.
Contexte et antécédents
La diarisation — déterminer qui parle et quand dans un flux audio — a historiquement posé un défi majeur pour la transcription en temps réel. Pendant des décennies, obtenir une diarisation fiable dans des environnements en direct nécessitait du matériel spécialisé ou un traitement hors ligne par lots, rendant l’outil moins applicable lors de réunions, appels, environnements bruyants et applications vocales. NVIDIA présente Streaming Sortformer comme un modèle de diarisation en temps réel, open et de production, conçu pour une faible latence dans des scénarios multi-intervenants réalistes. Le modèle peut être intégré à des pipelines et cadres existants, notamment NVIDIA NeMo et NVIDIA Riva, permettant une utilisation immédiate dans les pipelines de transcription, l’orchestration de voicebots en direct et les analyses de réunions d’entreprise. Le texte décrit Streaming Sortformer comme un modèle de diarisation qui classe les locuteurs en fonction de l’ordre de leur première apparition dans l’audio. Il utilise un module de pré-codage convolutionnel pour traiter et compresser l’audio brut, suivi de blocs conformer et transformer qui analysent le contexte conversationnel et attribuent des étiquettes aux locuteurs. Pour l’audio en direct, le modèle traite de petits segments qui se chevauchent, soutenus par une mémoire appelée Arrival-Order Speaker Cache (AOSC) pour suivre tous les locuteurs détectés précédemment. Cela permet au système de comparer les segments actuels avec les locuteurs passés et de maintenir une étiquetage cohérente au fur et à mesure que le flux évolue. NVIDIA affirme que cette configuration rend la supervision en temps réel de plusieurs locuteurs pratique et précise dans des environnements de production, et pas seulement dans des paramètres de recherche. Des illustrations (Figure 5 et Figure 6) démontrent comment l’AOSC gère les scénarios à trois et quatre locuteurs, respectivement, soulignant la capacité à maintenir des identités stables lorsque la conversation évolue. L’AOSC est au cœur de la conception : en conservant l’historique des locuteurs au fil du temps, le système évite les dérives d’identification et les changements d’étiquette qui pourraient compromettre la diarisation en temps réel. Cela s’aligne avec l’objectif de NVIDIA de faciliter une utilisation pratique dans des contextes réels, afin que les développeurs puissent insérer Streaming Sortformer dans des pipelines existants et opérer sur de vraies conversations plutôt que sur des données de recherche. Pour les équipes cherchant un contexte technique plus approfondi, NVIDIA renvoie vers la recherche Offline Sortformer disponible sur arXiv. Ce contexte aide à comprendre l’évolution vers une solution de diarisation en streaming en temps réel qui équilibre précision, latence et facilité opérationnelle.
Ce qui est nouveau
Streaming Sortformer introduit une diarisation en temps réel pensée pour une utilisation en production dans des applications vocales et des environnements d’entreprise. Points clés :
- Diarisation en temps réel, open et prête pour la production : le modèle est présenté comme une solution prête à l’emploi pour l’audio en direct à plusieurs locuteurs, pas uniquement pour des benchmarks de recherche.
- Traitement en temps réel avec segments chevauchants : l’audio est traité par segments courts qui se chevauchent, autorisant une diarisation continue avec une latence minimale.
- Arrival-Order Speaker Cache (AOSC) : une mémoire qui suit tous les locuteurs connus dans le flux, permettant de maintenir des étiquettes cohérentes au fur et à mesure que la conversation évolue.
- Intégration avec les outils NVIDIA existants : le modèle est conçu pour une insertion facile dans les pipelines de transcription et pour fonctionner avec NVIDIA NeMo et NVIDIA Riva, supportant transcription en direct et analytics.
- Orienté production : NVIDIA souligne que la solution est adaptée à des environnements réels, avec des indications vers des travaux techniques via Offline Sortformer. L’approche utilise une étape de pré-codage convolutionnel pour extraire des caractéristiques audio, suivie de blocs Conformer et Transformer qui captent à la fois les signaux à court terme et le contexte de conversation à long terme. Cette combinaison permet une diarisation robuste même lorsque des locuteurs entrent et sortent ou lorsque la dynamique de la discussion évolue. Le résultat est un modèle qui peut être intégré dans des pipelines de production pour fournir des étiquettes de parole en temps réel alignées sur l’ordre réel de la parole.
| Composant | But |
|---|---|
| Module de pré-codage convolutionnel | Traiter et compresser l’audio brut |
| Blocs Conformer et Transformer | Analyser le contexte conversationnel et classer les locuteurs |
| Arrival-Order Speaker Cache (AOSC) | Suivi de tous les locuteurs détectés pour assurer une étiquette cohérente |
| Points clés à retenir |
- Streaming Sortformer apporte une diarisation en temps réel en production, et pas seulement en contexte de recherche.
- L’AOSC garantit la stabilité des identités des locuteurs au fil des segments.
- Intégration facilitée avec NeMo et Riva pour les pipelines de transcription et les analyses d’entreprise.
- Le traitement en segments chevauchants équilibre latence et précision pour une utilisation pratique en temps réel.
- NVIDIA suggère de compléter le contexte technique via les travaux Offline Sortformer sur arXiv.
FAQ
-
Qu’est-ce que NVIDIA Streaming Sortformer ?
C’est un modèle de diarisation open et prêt pour la production, conçu pour identifier en temps réel qui parle dans un flux audio multi-locuteurs, avec intégration à NeMo et Riva.
-
Comment obtient-il des performances en temps réel ?
En traitant l’audio en petits segments chevauchants et en utilisant l’AOSC pour maintenir des étiquettes stables tout au long du flux.
-
u’est-ce que l’AOSC ?
Une mémoire qui suit tous les locuteurs détectés afin de comparer les segments actuels avec le passé et de maintenir des identités cohérentes.
-
Comment les développeurs peuvent-ils déployer Streaming Sortformer ?
Il peut être déployé dans des pipelines de transcription et utilisé avec NeMo et Riva pour la transcription en direct, l’orchestration de voicebots et les analyses de réunions.
Références
More news
NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé
Le HGX B200 de NVIDIA abaisse l’intensité des émissions de carbone incorporé de 24% par rapport au HGX H100, tout en offrant de meilleures performances IA et une efficacité énergétique accrue. Cet article résume les données PCF et les nouveautés matérielles.
Prévoir les phénomènes météorologiques extrêmes en quelques minutes sans superordinateur : Huge Ensembles (HENS)
NVIDIA et le Lawrence Berkeley National Laboratory présentent Huge Ensembles (HENS), un outil IA open source qui prévoit des événements météorologiques rares et à fort impact sur 27 000 années de données, avec des options open source ou prêtes à l’emploi.
Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo
NVIDIA Dynamo déporte le KV Cache depuis la mémoire GPU vers un stockage économique, permettant des contextes plus longs, une meilleure concurrence et des coûts d’inférence réduits pour les grands modèles et les charges AI génératives.
Le Playbook des Grands Maîtres Kaggle: 7 Techniques de Modélisation pour Données Tabulaires
Analyse approfondie de sept techniques éprouvées par les Grands Maîtres Kaggle pour résoudre rapidement des ensembles de données tabulaires à l’aide d’une accélération GPU, des baselines divers à l’assemblage et à la pseudo-étiquetage.
NVIDIA RAPIDS 25.08 Ajoute un Nouveau Profiler pour cuML, Améliorations du moteur GPU Polars et Support d’Algorithmes Étendu
RAPIDS 25.08 introduit deux profils pour cuml.accel (fonctionnel et ligne), l’exécuteur streaming par défaut du moteur Polars GPU, un support de types et chaînes étendu, Spectral Embedding dans cuML et des accélérations zéro-code pour plusieurs estimateurs.
Décodage spéculatif pour réduire la latence de l’inférence IA : EAGLE-3, MTP et approche Draft-Target
Analyse détaillée du décodage spéculatif pour l’inférence IA, incluant les méthodes draft-target et EAGLE-3, leur réduction de latence et les déploiements via TensorRT.