Benchmark

Items tagged with “Benchmark”.

16 sept. 2025 developer.nvidia.com

Réduire la latence de démarrage à froid pour l’inférence LLM avec NVIDIA Run:ai Model Streamer

Analyse approfondie sur la façon dont NVIDIA Run:ai Model Streamer abaisse les temps de démarrage à froid pour l’inférence des LLM en diffusant les poids vers la mémoire GPU, avec des benchmarks sur GP3, IO2 et S3.

Nvidia LLM Inference

15 sept. 2025 aws.amazon.com

Comment msg a renforcé la transformation RH avec Amazon Bedrock et msg.ProfileMap

Cet article explique comment msg a automatisé l'harmonisation des données pour msg.ProfileMap en utilisant Amazon Bedrock pour alimenter des flux d'enrichissement pilotés par LLM, améliorant la précision de l'appariement des concepts RH, réduisant la charge manuelle et assurant la conformité avec l'

Amazon LLM Benchmark

11 sept. 2025 developer.nvidia.com

Comment la Quantization Aware Training permet de récupérer la précision en inferance à faible précision

Explore QAT et QAD comme méthodes de récupération de précision dans des modèles à faible précision, en s'appuyant sur TensorRT Model Optimizer et les formats FP8/NVFP4/MXFP4.

Nvidia Quantization Benchmark

10 sept. 2025 developer.nvidia.com

Accélérer l’Inference de la Structure des Protéines de Plus de 100x avec le NVIDIA RTX PRO 6000 Blackwell Server Edition

Le RTX PRO 6000 Blackwell Server Edition de NVIDIA accélère considérablement l’inférence de structure des protéines, permettant des flux de travail GPU complets avec OpenFold et TensorRT, jusqu’à 138x plus rapide que AlphaFold2.

Nvidia Inference Benchmark

22 août 2025 machinelearning.apple.com

Les checklists surpassent les modèles de récompense pour l’alignement des modèles de langage

Une approche RL utilisant des checklists dérivées des instructions guide l’alignement et surpasse les modèles de récompense fixes sur plusieurs benchmarks du Qwen2.5-7B-Instruct, présentée à l’ICLR 2025.

Apple RL Benchmark

22 août 2025 machinelearning.apple.com

SlowFast-LLaVA-1.5 : LLMs vidéo économes en jetons pour la compréhension du long terme

La recherche ML d’Apple présente SlowFast-LLaVA-1.5 (SF-LLaVA-1.5), une famille de LLMs vidéo à faible coût en jetons pour la compréhension de vidéos longues, utilisant le mécanisme SlowFast à deux flux et des données publiques pour atteindre des performances de pointe entre 1B et 7B.

Apple LLM Transformers

A photo illustration of Daivd Luan, Amazon’s head of AGI Labs.

21 août 2025 theverge.com

Amazon mise sur les agents IA pour gagner la course, affirme le chef du AGI Lab David Luan

David Luan, chef du AGI Lab d’Amazon, affirme que résoudre les agents IA est la prochaine grande frontière et décrit une approche en mode usine pour construire des modèles plus intelligents, axée sur l’exécution de tâches réelles plutôt que sur le simple chat.

Theverge Benchmark

18 août 2025 machinelearning.apple.com

Enquêter sur les biais intersectionnels dans les grands modèles de langage via des disparités de confiance en coreference

Analyse approfondie de la manifestation des biais intersectionnels dans les LLMs au moyen de disparités de confiance en coreference. Le travail présente WinoIdentity et la métrique Coreference Confidence Disparity.

Apple LLM Benchmark

13 août 2025 developer.nvidia.com

Scale du RL des LLM par un entraînement prolongé : ProRL v2

La recherche NVIDIA présente ProRL v2, un cadre de reinforcement learning prolongé pour les LLMs, avec de nouvelles méthodes et résultats empiriques démontrant des gains soutenus au-delà des scénarios d’entraînement traditionnels.

Nvidia LLM RL

12 août 2025 machinelearning.apple.com

Éliciter la récupération et le raisonnement en contexte pour les modèles de langage à long contexte (ICR2) — Benchmark et techniques

Nouveaux benchmarks et méthodes permettant aux LCLM de récupérer et raisonner dans de vastes bases de connaissances, améliorant les tâches de type RAG. ICR2 évalue le réalisme; Mistral-7B obtient des gains notables et peut approcher GPT-4 sur de nombreuses tâches.

Apple RAG Transformers

12 août 2025 huggingface.co

TextQuests : Évaluer les LLM dans des jeux d’aventure textuels

TextQuests est un benchmark qui évalue les agents LLM sur 25 jeux classiques d’infocom, mettant l’accent sur le raisonnement en contexte long et l’exploration autonome.

Hugging Face LLM Benchmark

11 août 2025 developer.nvidia.com

Maximiser les performances robotiques avec Cosmos Reason de NVIDIA après entraînement

Cosmos Reason étend les capacités de raisonnement en robotics via un ajustement post-formation et un apprentissage par renforcement, offrant des performances accrues en IA physique avec un accès ouvert et des déploiements optimisés GPU.

Nvidia Robotics Benchmark

07 août 2025 openai.com

Présentation de GPT‑5 : IA unifiée avec pensée, routage en temps réel et capacités étendues

GPT‑5 représente une avancée majeure, alliant réponses rapides et raisonnement approfondi, routage en temps réel et gains importants en codage, mathématiques, rédaction, santé et compréhension multimodale.

Openai Benchmark

07 août 2025 openai.com

OpenAI Lance GPT-5 pour Développeurs sur la Plateforme API

OpenAI déploie GPT-5 sur son API, offrant des capacités de codage et d’agent plus avancées, de nouveaux contrôles pour les développeurs (verbosité et raisonnement) et le support des outils personnalisés sur trois tailles.

Openai Benchmark

23 juil. 2025 huggingface.co

TimeScope : Benchmark pour mesurer la compréhension de vidéos longues par les modèles multimodaux

Benchmark open-source TimeScope évalue la compréhension des vidéos longues par des needles courtes insérées dans des vidéos de 1 minute à 8 heures, couvrant récupération, synthèse, localisation et analyse du mouvement.

Hugging Face Benchmark Open Source

23 juil. 2025 huggingface.co

TimeScope : évaluer la compréhension de longues vidéos par les modèles Vision-Language

TimeScope introduit une nouvelle référence open source pour mesurer comment les modèles vision-langage traitent les vidéos longues en insérant des aiguilles courtes et en évaluant la récupération, la synthèse, la localisation et l’analyse du mouvement.

Hugging Face Benchmark Open Source

17 juil. 2025 huggingface.co

Retour vers le Futur : évaluer les IA agents sur la prédiction d’événements futurs

Analyse approfondie de FutureBench, un benchmark qui évalue les agents IA à prédire des événements futurs à partir de sources réelles, en mettant l’accent sur le raisonnement face à l’incertitude et les résultats vérifiables.

Hugging Face LLM Benchmark

17 juil. 2025 huggingface.co

Consilium : Quand plusieurs LLM collaborent pour atteindre un consensus

Plongée approfondie dans Consilium, la plateforme multi-LLM qui permet aux modèles de discuter, débattre et atteindre le consensus via des serveurs MCP et une ronde visuelle Gradio.

Hugging Face LLM Benchmark

16 juil. 2025 huggingface.co

Seq vs Seq : la suite Ettin d’encodeurs et decodeurs appariés

Ettin présente les premiers modèles encodés et décodeurs à la pointe, entraînés sur des données identiques, pour des comparaisons équitables et reproductibles.

Hugging Face Benchmark

09 sept. 2024 thegradient.pub

Ce qui manque aux chatbots LLM : un sens de l’objectif

Analyse comment un dialogue volontaire transforme les chatbots LLM en agents collaboratifs avec des objectifs, les limites des évaluations en une seule étape et les implications en matière de mémoire, de sécurité et d’usage réel.

Thegradient LLM Benchmark

28 août 2024 bair.berkeley.edu

StrongREJECT : Benchmark robuste pour évaluer les jailbreaks des LLM

Aperçu d’un benchmark de jailbreak de haute qualité avec deux évaluateurs automatisés, un ensemble de 313 prompts interdits et des résultats montrant que de nombreux jailbreaks sont moins efficaces que les revendications passées.

Berkeley LLM Benchmark

20 juil. 2024 bair.berkeley.edu

Visual Haystacks: Benchmark de raisonnement sur plusieurs images

Une analyse approfondie de Visual Haystacks (VHs), le premier benchmark NIAH centré sur l’image et le raisonnement sur long contexte dans de grands ensembles d’images non corrélées, ses conclusions et l’approche MIRAGE qui fait progresser le raisonnement par récupération pour des ensembles d’images

Berkeley Benchmark

20 juil. 2024 bair.berkeley.edu

Visual Haystacks (VHs) : Benchmark pour le raisonnement visuel multi‑image

Benchmark de raisonnement visuel en contexte long sur de grands ensembles d’images non corrélées; introduit MIRAGE pour étendre les LMMs au-delà du VQA sur une image.

Berkeley Benchmark

08 avr. 2024 thegradient.pub

Bref aperçu des biais de genre dans l’IA : résultats clés et implications

Revue succincte de la manière dont les biais de genre apparaissent dans l’IA — embeddings de mots, résolution d’anaphores, génération d’images — avec des benchmarks, des mitigations et des implications pour les développeurs et les entreprises.

Thegradient Transformers Benchmark

08 avr. 2024 thegradient.pub

Vue d’ensemble sur les biais de genre dans l’IA

Synthèse des travaux clés mesurant les biais de genre dans l’IA, couvrant les embeddings, la co-référence, la reconnaissance faciale, les benchmarks QA et la génération d’images; discussion sur les mitigations et les lacunes.

Thegradient Benchmark

28 mars 2024 thegradient.pub

Mamba expliqué : les Modèles d’Espace d’État promettent des performances proches des Transformers avec des contextes d’un million de tokens

Mamba introduit les Modèles d’Espace d’État (SSM) comme remplacement d’Attention dans les Transformers, visant des performances similaires et un déploiement efficace sur de longs contextes.

Thegradient Transformers Benchmark

24 févr. 2024 thegradient.pub

Pourquoi mon modèle ne fonctionne-t-il pas ? Guide pratique pour éviter les pièges du ML

Examine en détail pourquoi les modèles ML échouent sur des données réelles, en couvrant la qualité des données, les variables cachées, les corrélations fallacieuses, les fuites de données et des mesures pratiques comme la checklist REFORMS.

Thegradient Benchmark