LLM

Items tagged with “LLM”.

18 sept. 2025 developer.nvidia.com

Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo

NVIDIA Dynamo déporte le KV Cache depuis la mémoire GPU vers un stockage économique, permettant des contextes plus longs, une meilleure concurrence et des coûts d’inférence réduits pour les grands modèles et les charges AI génératives.

Nvidia LLM GPU

16 sept. 2025 developer.nvidia.com

Réduire la latence de démarrage à froid pour l’inférence LLM avec NVIDIA Run:ai Model Streamer

Analyse approfondie sur la façon dont NVIDIA Run:ai Model Streamer abaisse les temps de démarrage à froid pour l’inférence des LLM en diffusant les poids vers la mémoire GPU, avec des benchmarks sur GP3, IO2 et S3.

Nvidia LLM Inference

16 sept. 2025 aws.amazon.com

Simplifier l accès aux changements de contenu ISO-rating avec Verisk Rating Insights et Amazon Bedrock

Verisk Rating Insights, propulsé par Amazon Bedrock, LLM et RAG, offre une interface conversationnelle pour accéder aux changements ERC ISO, réduisant les téléchargements manuels et accélérant les informations fiables.

Amazon LLM RAG

15 sept. 2025 aws.amazon.com

Comment msg a renforcé la transformation RH avec Amazon Bedrock et msg.ProfileMap

Cet article explique comment msg a automatisé l'harmonisation des données pour msg.ProfileMap en utilisant Amazon Bedrock pour alimenter des flux d'enrichissement pilotés par LLM, améliorant la précision de l'appariement des concepts RH, réduisant la charge manuelle et assurant la conformité avec l'

Amazon LLM Benchmark

12 sept. 2025 aws.amazon.com

Automatiser des pipelines RAG avancés avec Amazon SageMaker AI

Optimisez l’expérimentation jusqu’à la production pour le RAG (Retrieval Augmented Generation) avec SageMaker AI, MLflow et Pipelines, afin d’obtenir des flux reproductibles, évolutifs et gouvernés.

Amazon LLM RAG

10 sept. 2025 developer.nvidia.com

Déployer une inférence IA scalable avec NVIDIA NIM Operator 3.0.0

NVIDIA NIM Operator 3.0.0 étend l’inférence IA scalable sur Kubernetes, avec déploiements multi-LLM et multi-nœud, intégration KServe et support DRA en version technologique, en collaboration avec Red Hat et NeMo Guardrails.

Nvidia LLM RAG

10 sept. 2025 aws.amazon.com

Modèles Falcon-H1 de TII disponibles sur Amazon Bedrock Marketplace et SageMaker JumpStart

AWS annonce les modèles Falcon-H1 à instruction de TII (0,5B–34B) sur Amazon Bedrock Marketplace et SageMaker JumpStart, avec support multilingue, architecture hybride et guide de déploiement.

Amazon LLM Transformers

02 sept. 2025 developer.nvidia.com

Réduire les coûts de déploiement des modèles tout en préservant les performances grâce à l’échange de mémoire GPU

Une approche d’échange de mémoire GPU (swap de mémoire) permet à plusieurs modèles de partager les GPU au-delà de la capacité, réduisant les coûts tout en maintenant la réactivité pour l’inférence LLM à grande échelle.

Nvidia LLM GPU

02 sept. 2025 developer.nvidia.com

Réduire les coûts de déploiement des modèles tout en conservant les performances grâce au swap de mémoire GPU

Exploitez le swap mémoire GPU (hot-swapping de modèles) pour partager les GPUs entre plusieurs LLM, réduire les coûts inoccupés et améliorer l’auto-Scaling tout en respectant les SLA.

Nvidia LLM GPU

29 août 2025 developer.nvidia.com

Ajustement fin de gpt-oss pour la précision et la performance avec l’entraînement conscient à la quantification

NVIDIA décrit un flux SFT + QAT pour récupérer la précision FP4 lors de l’ajustement fin de gpt-oss, en comparant MXFP4 et NVFP4, et détaille les gains de déploiement et de performance avec des taux de réussite de 98% sur des tâches ciblées.

Nvidia LLM Open Source

29 août 2025 developer.nvidia.com

Comment les petits modèles de langage sont la clé d'une IA agentive scalable

Explique pourquoi les petits modèles de langage (SLM) permettent une IA agentive scalable, le rôle des écosystèmes de modèles hétérogènes et les voies pratiques d'adoption avec NVIDIA NeMo et Nemotron Nano 2.

Nvidia LLM

29 août 2025 developer.nvidia.com

Fine-Tuning gpt-oss pour la précision et les performances avec l’entraînement par quantisation (QAT)

Guide du fine-tuning de gpt-oss utilisant SFT + QAT pour récupérer la précision FP4 tout en préservant l’efficacité, avec upcast vers BF16, MXFP4, NVFP4 et déploiement avec TensorRT-LLM.

Nvidia LLM Open Source

29 août 2025 developer.nvidia.com

Comment les petits modèles linguistiques contribuent à une IA agentique évolutive

Explique comment les petits modèles linguistiques permettent une IA agentique plus rentable et flexible, aux côtés des LLMs, via NVIDIA NeMo et Nemotron Nano 2.

Nvidia LLM

27 août 2025 developer.nvidia.com

Comment faire évoluer vos agents LangGraph en production d’un seul utilisateur à 1 000 collègues

Guide pour déployer et faire évoluer des agents LangGraph en production avec le NeMo Agent Toolkit, des tests de charge et une mise en œuvre par étapes pour des centaines à des milliers d’utilisateurs.

Nvidia LLM Open Source

26 août 2025 aws.amazon.com

Comment les services de santé d Amazon ont amélioré la découverte dans la recherche Amazon via AWS ML et Gen AI

Examen des méthodes utilisées par Amazon Health Services pour améliorer la découvrabilité dans la recherche Amazon en combinant ML, NLP, recherche vectorielle et LLM via SageMaker, Bedrock et EMR.

Amazon LLM RAG

25 août 2025 developer.nvidia.com

NVIDIA Jetson Thor : la plateforme ultime pour l’IA physique

Jetson Thor offre l’IA en bordure à échelle robotique, avec GPU Blackwell, MIG, FP4/FP8 et 128 Go de mémoire pour les plateformes robotiques de nouvelle génération.

Nvidia LLM Transformers

25 août 2025 developer.nvidia.com

NVFP4 Entraîne avec une Précision de 16 Bits et une Vitesse et Efficacité de 4 Bits

NVFP4 est un format de données en 4 bits offrant une précision équivalente au FP16 avec la bande passante et l’efficacité mémoire du 4 bits, étendu au pré-entraînement pour les grands modèles de langage. Ce profil couvre des expériences en 12B, la stabilité et les collaborations industrielles.

Nvidia LLM

22 août 2025 aws.amazon.com

Améliorez l’analyse géospatiale avec Amazon Bedrock : LLM, RAG et flux GIS

Examine comment intégrer des données géospatiales et des flux GIS avec Amazon Bedrock, en utilisant des LLM, le RAG et des Bedrock Agents pour déverrouiller des insights et rationaliser les opérations.

Amazon LLM RAG

22 août 2025 machinelearning.apple.com

SlowFast-LLaVA-1.5 : LLMs vidéo économes en jetons pour la compréhension du long terme

La recherche ML d’Apple présente SlowFast-LLaVA-1.5 (SF-LLaVA-1.5), une famille de LLMs vidéo à faible coût en jetons pour la compréhension de vidéos longues, utilisant le mécanisme SlowFast à deux flux et des données publiques pour atteindre des performances de pointe entre 1B et 7B.

Apple LLM Transformers

The "Super Weight:" How Even a Single Parameter can Determine a Large Language Model's Behavior

21 août 2025 machinelearning.apple.com

Le 'Super Weight' : comment un seul paramètre peut déterminer le comportement d'un grand modèle de langage

Des chercheurs d'Apple identifient des « super poids » — une très petite sous-ensemble de paramètres — qui peuvent influencer de manière décisive le comportement d'un LLM, ouvrant des perspectives de compression et soulevant des questions sur la dynamique interne.

Apple LLM

18 août 2025 machinelearning.apple.com

Enquêter sur les biais intersectionnels dans les grands modèles de langage via des disparités de confiance en coreference

Analyse approfondie de la manifestation des biais intersectionnels dans les LLMs au moyen de disparités de confiance en coreference. Le travail présente WinoIdentity et la métrique Coreference Confidence Disparity.

Apple LLM Benchmark

15 août 2025 machinelearning.apple.com

UICoder : Affinage des LLMs pour générer du code d’UI avec des retours automatisés

UICoder affine des grands modèles de langage pour générer du code d’interface utilisateur via des retours automatisés issus de compilateurs et de modèles multimodaux, réduisant le recours à des étiquetages humains coûteux et se rapprochant des modèles propriétaires.

Apple LLM Research

14 août 2025 aws.amazon.com

Citations avec Amazon Nova : permettre aux modèles de compréhension Nova de citer des sources

Cet article AWS démontre comment inciter les modèles de compréhension Nova à citer des sources et comment évaluer les réponses et les citations pour l'exactitude via une approche « juge IA ».

Amazon LLM

13 août 2025 aws.amazon.com

Amazon Bedrock AgentCore Memory : construire des agents conscients du contexte

Aperçu d'Amazon Bedrock AgentCore Memory, un service entièrement géré permettant aux agents IA de conserver à la fois une mémoire à court terme et une mémoire à long terme pour des interactions continues et personnalisées.

Amazon LLM

13 août 2025 aws.amazon.com

PwC et AWS Construisent une IA Responsable avec le Raisonnement Automatisé sur Amazon Bedrock

PwC et AWS allient l'expertise sectorielle de PwC avec les vérifications de Raisonnement Automatisé dans Guardrails d'Amazon Bedrock pour une IA vérifiable et conforme dans les secteurs réglementés, y compris l'adaptation à l'UE AI Act, Regulated Content Orchestrator et gestion des pannes.

Amazon LLM

13 août 2025 developer.nvidia.com

Scale du RL des LLM par un entraînement prolongé : ProRL v2

La recherche NVIDIA présente ProRL v2, un cadre de reinforcement learning prolongé pour les LLMs, avec de nouvelles méthodes et résultats empiriques démontrant des gains soutenus au-delà des scénarios d’entraînement traditionnels.

Nvidia LLM RL

12 août 2025 huggingface.co

FilBench : Les LLMs comprennent et génèrent le filipino (Tagalog, Cebuano) ?

FilBench évalue les performances des LLMs pour Tagalog, Filipino et Cebuano dans les domaines connaissance culturelle, NLP classique, compréhension en lecture et génération, révélant l'efficacité et les résultats de traduction pour les modèles SEA et GPT-4o.

Hugging Face LLM NLP

12 août 2025 huggingface.co

TextQuests : Évaluer les LLM dans des jeux d’aventure textuels

TextQuests est un benchmark qui évalue les agents LLM sur 25 jeux classiques d’infocom, mettant l’accent sur le raisonnement en contexte long et l’exploration autonome.

Hugging Face LLM Benchmark

12 août 2025 huggingface.co

FilBench : suite d’évaluation des LLMs pour le filipin Tagalog, Filipino et Cebuano

FilBench est une suite d’évaluation complète pour mesurer les capacités des LLMs en Tagalog, Filipino et Cebuano, couvrant connaissance culturelle, NLP classique, compréhension de lecture et génération.

Hugging Face LLM NLP

08 août 2025 machinelearning.apple.com

Optimiser la Reconnaissance Vocale Contextuelle grâce à la Verrouillage Vectoriel pour une Récupération Efficace

Propose une approximation par quantification vectorielle du scoring d’attention croisée pour récupérer efficacement des entrées de biais contextuel pour la reconnaissance vocale. Permet des catalogues volumineux avec biais par récupération, avec jusqu’à 71% de réduction relative d’erreurs et d’impor

Apple LLM

08 août 2025 huggingface.co

Hugging Face AI Sheets : outil sans code pour construire, transformer et enrichir des jeux de données

AI Sheets est un outil open-source sans code pour créer, enrichir et transformer des jeux de données avec des modèles d IA. Déployable localement ou sur le Hub, il prend en charge des milliers de modèles ouverts et permet des itérations par prompts, retours en mode few-shot et comparaisons de modèle

Hugging Face LLM Transformers

06 août 2025 engineering.fb.com

Diff Risk Score : IA axée sur le risque dans le développement logiciel chez Meta

Diff Risk Score (DRS) utilise un LLM Llama ajusté pour prédire si une modification de code peut provoquer un incident en production, en mettant en évidence les diffs risqués et en favorisant le développement conscient du risque.

Fb LLM

05 août 2025 openai.com

Estimer les risques de frontier du pire cas pour les LLMs à poids ouverts

Une étude détaillée explore les risques de frontier en publiant des LLMs à poids ouverts via un fine-tuning malveillant (MFT), en comparant gpt-oss avec des modèles ouverts et fermés dans les domaines de la biologie et de la cybersécurité.

Openai LLM Open Source

05 août 2025 developer.nvidia.com

Livraison de 1,5 M TPS d’inférence sur NVIDIA GB200 NVL72 : Modèles gpt-oss d’OpenAI accélérés du cloud à l边

NVIDIA optimise les modèles gpt-oss d’OpenAI pour une inférence à 1,5 M/TPS sur GB200 NVL72, permettant une performance Day 0 du cloud à l’edge avec les plateformes Blackwell et Hopper.

Nvidia LLM Transformers

31 juil. 2025 huggingface.co

Créez un Assistant Shopping IA avec les serveurs Gradio MCP

Découvrez comment les serveurs Gradio MCP permettent à un LLM d’appeler des modèles externes pour naviguer, sélectionner des vêtements et afficher des essayages virtuels via IDM-VTON, le tout intégré via VS Code AI Chat.

Hugging Face LLM Release

31 juil. 2025 huggingface.co

Créer un assistant d'achat IA avec les serveurs Gradio MCP

Découvrez comment les serveurs Gradio MCP connectent les LLM aux modèles Hugging Face pour alimenter un assistant d'achat IA qui parcourt les sites et réalise des essayages virtuels avec IDM-VTON.

Hugging Face LLM

23 juil. 2025 microsoft.com

Télémétrie sémantique : approche technique pour classer les interactions humain-IA à grande échelle

Découvrez comment la télémétrie sémantique classifie les interactions humain-IA à grande échelle, dévoilant les choix d’ingénierie autour de l’agrégation, de l’optimisation des jetons et de l’orchestration pour des LLM efficaces et fiables en quasi temps réel.

Microsoft LLM Research

17 juil. 2025 huggingface.co

Retour vers le Futur : évaluer les IA agents sur la prédiction d’événements futurs

Analyse approfondie de FutureBench, un benchmark qui évalue les agents IA à prédire des événements futurs à partir de sources réelles, en mettant l’accent sur le raisonnement face à l’incertitude et les résultats vérifiables.

Hugging Face LLM Benchmark

17 juil. 2025 huggingface.co

Consilium : Quand plusieurs LLM collaborent pour atteindre un consensus

Plongée approfondie dans Consilium, la plateforme multi-LLM qui permet aux modèles de discuter, débattre et atteindre le consensus via des serveurs MCP et une ronde visuelle Gradio.

Hugging Face LLM Benchmark

17 juil. 2025 huggingface.co

Cinq grandes améliorations des serveurs Gradio MCP

Aperçu des améliorations du serveur MCP Gradio dans la version 5.38.0: upload de fichiers, streaming de progression, intégration API OpenAPI, gestion des en-têtes et descriptions d’outils personnalisables.

Hugging Face LLM

15 juil. 2025 microsoft.com

CollabLLM : Enseigner aux LLMs à collaborer avec les utilisateurs

CollabLLM apprend aux LLMs à collaborer avec les utilisateurs en posant des questions de clarification et en adaptant le ton au contexte, progressant vers une IA plus centrée sur l’utilisateur et digne de confiance. Un article de Microsoft Research présente l’approche et son impact potentiel.

Microsoft LLM Research

04 juin 2025 thegradient.pub

AGI n’est pas multimodale : Embodiment, modèles du monde et les limites de l’IA patchwork

Argumente que la véritable AGI nécessite une compréhension incarnée du monde physique, pas seulement une intégration multimodale; les systèmes multimodaux pourraient ne pas atteindre une IA générale humaine à court terme.

Thegradient LLM

11 avr. 2025 bair.berkeley.edu

Défense contre l’injection de prompts avec StruQ et SecAlign : requêtes structurées et optimisation des préférences

BAIR de Berkeley présente StruQ et SecAlign comme défenses contre l’injection de prompts dans les applications LLM, avec Front-End Sécurisé, stratégies d’entraînement et améliorations de robustesse.

Berkeley LLM

11 avr. 2025 bair.berkeley.edu

Defending against Prompt Injection with Structured Queries (StruQ) and Preference Optimization (SecAlign)

Recent advances in Large Language Models (LLMs) enable exciting LLM-integrated applications. However, as LLMs have improved, so have the attacks against them. Prompt injection attack is listed as the #1 threat by OWASP to LLM-integrated applications, where an LLM input contains a trusted prompt (ins

Berkeley LLM

12 nov. 2024 bair.berkeley.edu

Anthology : des personnalités virtuelles pour les LLMs via des backstories riches

Le laboratoire BAIR de Berkeley présente Anthology, une méthode qui conditionne les LLMs à des personas virtuelles représentatifs, cohérents et divers en utilisant des narratifs de vie riches. L’approche est évaluée sur des enquêtes Pew et discute des implications, de l’éthique et des perspectives f

Berkeley LLM Research

12 nov. 2024 bair.berkeley.edu

Anthology : Conditionnement des LLMs par des Backstories Riches pour des Personas Virtuelles

Une méthode pour guider les LLMs vers des personas virtuelles représentatifs et cohérents en générant des backstories détaillées et en les utilisant comme contexte de conditionnement, permettant des simulations individualisées et des études utilisateur à grande échelle.

Berkeley LLM

09 sept. 2024 thegradient.pub

Ce qui manque aux chatbots LLM : un sens de l’objectif

Analyse comment un dialogue volontaire transforme les chatbots LLM en agents collaboratifs avec des objectifs, les limites des évaluations en une seule étape et les implications en matière de mémoire, de sécurité et d’usage réel.

Thegradient LLM Benchmark

09 sept. 2024 thegradient.pub

Ce qui manque aux chatbots LLM : un sens de l'objectif

Explore le dialogue orienté objectif dans les chatbots LLM, soutenant que les échanges multi-tours s'alignent mieux sur les objectifs des utilisateurs et favorisent la collaboration, notamment pour le code et les assistants personnels.

Thegradient LLM

28 août 2024 bair.berkeley.edu

Comment évaluer les méthodes de jailbreak: étude de cas avec la référence StrongREJECT

Examen rigoureux des revendications de jailbreak, des limites des bancs existants et de la refonte de l’évaluation par StrongREJECT, qui mesure à la fois la volonté et la capacité des LLMs à répondre à des prompts interdits.

Berkeley LLM

28 août 2024 bair.berkeley.edu

StrongREJECT : Benchmark robuste pour évaluer les jailbreaks des LLM

Aperçu d’un benchmark de jailbreak de haute qualité avec deux évaluateurs automatisés, un ensemble de 313 prompts interdits et des résultats montrant que de nombreux jailbreaks sont moins efficaces que les revendications passées.

Berkeley LLM Benchmark

29 mai 2024 bair.berkeley.edu

TinyAgent : appel de fonction à la périphérie avec de petits modèles linguistiques

Une étude montre que TinyAgent permet à de petits modèles de langage d’effectuer des appels de fonction précis à la périphérie, réduisant la dépendance au cloud et la latence tout en préservant la vie privée.

Berkeley LLM RAG

20 avr. 2024 thegradient.pub

Applications des marchés financiers des LLMs : opportunités, limites et axes de mise en œuvre

Analyse approfondie sur l’application des grands modèles de langage (LLMs) aux séries temporelles financières, données multimodales et génération de données synthétiques, avec chiffres clés sur le volume de tokens, les fenêtres contextuelles et la residualisation.

Thegradient LLM

20 avr. 2024 thegradient.pub

Applications des LLMs au marché financier — aperçu et cas d'utilisation

Aperçu de comment les LLMs peuvent être appliqués aux marchés financiers, incluant la modélisation autoregressive des données de prix, l’intégration multimodale, la résidualisation, les données synthétiques et les prévisions sur plusieurs horizons.

Thegradient LLM

08 mars 2024 thegradient.pub

Car-GPT : les LLM pourraient-ils enfin faire décoller les voitures autonomes ?

Examine comment les grands modčles de langage peuvent soutenir la perception, la planification et la génération dans la conduite autonome, les défis clés et l’avenir des voitures autonomes avec les LLM.

Thegradient LLM Diffusion

08 mars 2024 thegradient.pub

Car-GPT : les LLMs pourraient-ils enfin rendre les voitures autonomes possibles ?

Vue d’ensemble sur la manière dont les grands modèles de langage peuvent améliorer la conduite autonome dans la perception, la planification et la génération, avec exemples et défis.

Thegradient LLM