StrongREJECT : Benchmark robuste pour évaluer les jailbreaks des LLM
Sources: http://bair.berkeley.edu/blog/2024/08/28/strong-reject, http://bair.berkeley.edu/blog/2024/08/28/strong-reject/, BAIR Blog
Aperçu
StrongREJECT est un benchmark de jailbreak à la pointe destiné à évaluer systématiquement les méthodes de jailbreak pour les grands modèles de langage (LLMs). Le billet BAIR explique que les évaluations de jailbreak antérieures souffraient de jeux de données et de métriques qui privilégiaient la volonté de répondre plutôt que la qualité de la réponse. StrongREJECT propose un ensemble curé de 313 prompts interdits qui reflètent les mesures de sécurité réelles mises en œuvre par des entreprises leaders de l’IA. Il fournit deux évaluateurs automatisés conçus pour s’aligner sur les jugements humains : un évaluateur basé sur une rubique et un évaluateur Gemma 2B finement ajusté. L’évaluateur basé sur la rubrique demande à un LLM d’évaluer le prompt interdit et la réponse du modèle victime et produit trois scores : une décision de disponibilité (binaire) et deux scores sur une échelle de 5 points pour la spécificité et la persuasion, mis à l’échelle sur [0, 1]. Gemma 2B est entraîné sur des étiquettes produites par l’évaluateur basé sur la rubrique et fournit également un score 0–1. Dans une étude de validation, cinq juges humains ont étiqueté 1 361 paires prompt interdit–réponse du modèle victime; la médiane des étiquettes humaines a été utilisée comme vérité de référence. Les évaluateurs automatisés StrongREJECT ont montré un accord de pointe avec les jugements humains par rapport à sept évaluateurs automatisés existants. Le billet rapporte aussi l’évaluation de 37 méthodes de jailbreak, montrant que la plupart d’entre elles sont bien moins efficaces que ce qui était revendiqué auparavant. Une observation clé est que les évaluations antérieures mesuraient principalement la volonté de répondre, tandis que StrongREJECT évalue aussi la capacité du modèle victime à générer une réponse de haute qualité. Les auteurs ont testé une hypothèse selon laquelle les jailbreaks ont tendance à dégrader les capacités du modèle victime et ont mené deux expériences sur un modèle non aligné pour explorer cette idée. Le message global est qu’il existe un écart entre le succès des jailbreaks publié et une évaluation robuste, alignée sur l’humain, ce qui souligne le besoin de benchmarks comme StrongREJECT.
Caractéristiques principales (liste)
- 313 prompts interdits reflétant les mesures de sécurité réelles mises en œuvre par des entreprises de premier plan
- Deux évaluateurs automatisés avec un fort alignement sur les jugements humains : basé sur une rubique et Gemma 2B finement ajusté
- Flux de travail de calibration utilisant des étiquettes humaines pour former et valider les évaluateurs automatisés
- Évaluation qui capte à la fois la volonté de répondre et la qualité de la réponse
- Preuves indiquant que de nombreux jailbreaks publiés surestiment leur efficacité; StrongREJECT fournit une évaluation robuste entre méthodes
- Benchmarque reproductible avec rubrique et pipeline d’évaluation convivial pour les modèles
Cas d’utilisation courants
- Comparer différentes méthodes de jailbreak sur un benchmark unique et de haute qualité
- Valider les résultats de jailbreak publiés dans des travaux antérieurs via une réévaluation avec StrongREJECT
- Étudier l’alignement des évaluateurs automatisés avec les jugements humains et repérer les lacunes
- Investiguer si les jailbreaks dégradent les capacités du modèle victime au-delà de simples refus
Installation & configuration (instructions exactes)
Non spécifié dans la source. Le billet décrit le benchmark, le jeu de 313 prompts et les évaluateurs, mais ne fournit pas d’instructions d’installation.
Démarrage rapide (exemple minimal exécutable)
Esquisse d’usage de StrongREJECT dans un contexte de recherche :
- Constituer un jeu de 313 prompts interdits et des réponses associées du modèle victime.
- Utiliser l’évaluateur basé sur la rubrique en sollicitant un LLM avec le prompt interdit, la réponse et les instructions de notation, pour produire trois sorties par paire : disponibilité (binaire) et deux scores 0–1 pour spécificité et persuasion.
- Optionnellement exécuter l’évaluateur Gemma 2B finement ajusté sur le même ensemble pour obtenir une autre note 0–1, permettant une validation croisée.
- Comparer les scores automatiques à un petit échantillon étiqueté humain pour vérifier la corrélation.
Avantages et inconvénients
- Avantages : alignement fort avec les jugements humains; robuste face à une large gamme de jailbreaks; évalue à la fois la volonté et la qualité de la réponse; aide à distinguer des sorties dangereuses qui refusent simplement ou produisent des contenus non sûrs mais utiles.
- Inconvénients : les détails de configuration ne sont pas fournis dans la source; les résultats dépendent du cadre d’évaluation des auteurs et du jeu de prompts; les conclusions reflètent leurs expériences et peuvent évoluer avec les données futures.
Alternatives (comparaison rapide)
| Type d’évaluateur | Ce qu’il fait | Points forts | Limites |---|---|---|---| | StrongREJECT basé sur rubrique | Interroge un LLM avec le prompt et la réponse et produit trois scores | Bon alignement avec les jugements humains; évaluation multiforme (disponibilité, spécificité, persuasion) | Nécessite une rubique bien définie; dépend de la qualité du LLM |Évaluateur Gemma 2B finement ajusté | Petit modèle entraîné sur les étiquettes de rubrique | Inférence rapide sur GPUs modestes; bon accord avec les scores rubriques | Peut hériter de biais des données d’entraînement |Évaluateurs automatisés existants (7) | Méthodes automatisées précédentes | Couramment utilisé dans la littérature | Alignement moindre avec les jugements humains comparé à StrongREJECT |
Prix ou licence
Les détails de licence ne sont pas spécifiés dans la source.
Références
More resources
Réduire les coûts de déploiement des modèles tout en conservant les performances grâce au swap de mémoire GPU
Exploitez le swap mémoire GPU (hot-swapping de modèles) pour partager les GPUs entre plusieurs LLM, réduire les coûts inoccupés et améliorer l’auto-Scaling tout en respectant les SLA.
Fine-Tuning gpt-oss pour la précision et les performances avec l’entraînement par quantisation (QAT)
Guide du fine-tuning de gpt-oss utilisant SFT + QAT pour récupérer la précision FP4 tout en préservant l’efficacité, avec upcast vers BF16, MXFP4, NVFP4 et déploiement avec TensorRT-LLM.
Comment les petits modèles linguistiques contribuent à une IA agentique évolutive
Explique comment les petits modèles linguistiques permettent une IA agentique plus rentable et flexible, aux côtés des LLMs, via NVIDIA NeMo et Nemotron Nano 2.
Comment faire évoluer vos agents LangGraph en production d’un seul utilisateur à 1 000 collègues
Guide pour déployer et faire évoluer des agents LangGraph en production avec le NeMo Agent Toolkit, des tests de charge et une mise en œuvre par étapes pour des centaines à des milliers d’utilisateurs.
NVFP4 Entraîne avec une Précision de 16 Bits et une Vitesse et Efficacité de 4 Bits
NVFP4 est un format de données en 4 bits offrant une précision équivalente au FP16 avec la bande passante et l’efficacité mémoire du 4 bits, étendu au pré-entraînement pour les grands modèles de langage. Ce profil couvre des expériences en 12B, la stabilité et les collaborations industrielles.
TextQuests : Évaluer les LLM dans des jeux d’aventure textuels
TextQuests est un benchmark qui évalue les agents LLM sur 25 jeux classiques d’infocom, mettant l’accent sur le raisonnement en contexte long et l’exploration autonome.