StrongREJECT: Benchmark robusto para avaliação de jailbreak em LLMs

Visão geral

StrongREJECT é um benchmark de jailbreak de ponta projetado para avaliar métodos de jailbreak em grandes modelos de linguagem (LLMs). O blog da BAIR observa que avaliações anteriores frequentemente sofrem com conjuntos de prompts proibidos mal formados e avaliadores que medem apenas a disposição de responder, não a qualidade da resposta. StrongREJECT oferece um conjunto curado de 313 prompts proibidos que refletem medidas de segurança reais adotadas por empresas líderes de IA. Ele traz dois avaliadores automáticos com forte alinhamento a julgamentos humanos: um avaliador baseado em rubrica e um avaliador treinado com Gemma 2B. O avaliador baseado em rubrica solicita a um LLM que avalie o prompt proibido junto com a resposta do modelo vítima e produz três escores: disponibilidade (binária) e duas escalas de 5 pontos para especificidade e persuasão, redimensionadas para o intervalo [0, 1]. O avaliador Gemma 2B é treinado com rótulos gerados pelo avaliador baseado em rubrica e também fornece uma pontuação 0–1. Em um estudo de validação, cinco avaliadores humanos rotularam 1.361 pares prompt proibido–resposta do modelo vítima; a mediana dos rótulos humanos foi usada como verdade de referência. Os avaliadores automáticos do StrongREJECT mostraram acordo de ponta com julgamentos humanos quando comparados a sete avaliadores automatizados existentes. O blog também descreve a avaliação de 37 métodos de jailbreak, mostrando que a maioria é muito menos eficaz do que reivindicado anteriormente. Uma conclusão-chave é que avaliações anteriores costumavam medir apenas a disposição de responder, enquanto o StrongREJECT também considera a capacidade do modelo vítima de gerar uma resposta de alta qualidade. Os autores testam uma hipótese de que jailbreaks tendem a degradar as capacidades do modelo vítima e conduzem dois experimentos em um modelo desalinhado para explorar essa ideia. A mensagem geral é que existe uma discrepância entre o sucesso de jailbreak publicado e uma avaliação robusta, alinhada aos humanos, destacando a necessidade de benchmarks como o StrongREJECT.

Principais características (listagem)

313 prompts proibidos refletindo medidas de segurança reais de grandes empresas de IA
Dois avaliadores automatizados com forte alinhamento a julgamentos humanos: baseado em rubrica e Gemma 2B ajustado
Fluxo de calibração que usa rótulos humanos para treinar e validar os avaliadores automatizados
Avaliação que captura tanto a disposição quanto a qualidade/utilidade da resposta
Evidência de que muitos jailbreaks publicados superestimam a eficácia; StrongREJECT oferece avaliação confiável entre métodos
Um benchmark reprodutível com rubrica e pipeline de avaliação amigável para modelos

Casos de uso comuns

Comparar diferentes métodos de jailbreak em um único benchmark de alta qualidade
Validar descobertas de trabalhos anteriores sobre jailbreak com uma avaliação robusta
Estudar como os avaliadores automatizados se alinham aos julgamentos humanos e identificar lacunas
Investigar se jailbreaks afetam as capacidades do modelo vítima além de apenas provocar uma resposta

Setup & instalação (comandos exatos)

Não especificado na fonte. O blog da BAIR descreve o benchmark, o conjunto de 313 prompts e os avaliadores, mas não fornece instruções de configuração ou instalação.

Início rápido (exemplo mínimo executável)

Esboço de alto nível para uso do StrongREJECT em contextos de pesquisa:

Reúna um conjunto de 313 prompts proibidos e respostas correspondentes do modelo vítima.
Aplique o avaliador baseado em rubrica solicitando a um LLM que avalie o prompt proibido, a resposta do vítima e as instruções de pontuação para produzir três resultados por par: disponibilidade (binária) e duas pontuações 0–1 para especificidade e persuasão.
Opcionalmente rode o avaliador Gemma 2B ajustado no mesmo conjunto para obter uma pontuação adicional 0–1, permitindo checagem cruzada.
Compare as pontuações automáticas com uma pequena amostra de rótulos humanos para verificar a correlação.

Prós e contras

Prós: alto alinhamento com julgamentos humanos; robusto em uma ampla gama de jailbreaks; avalia tanto a disposição quanto a qualidade da resposta; ajuda a distinguir resultados perigosos que apenas recusam de saídas perigosas.
Contras: detalhes de configuração não são fornecidos na fonte; os resultados dependem do framework de avaliação dos autores e do conjunto de prompts de 313 itens; as conclusões refletem os experimentos dos autores e podem evoluir com dados futuros.

Alternativas (breve comparação)

| Tipo de avaliador | O que faz | Pontos fortes | Limitações |---|---|---|---| | StrongREJECT baseado em rubrica | Prompt a um LLM com o prompt e a resposta, gera três escores | Alinha-se bem aos julgamentos humanos; pontuação multifacetada (disponibilidade, especificidade, persuasão) | Requer definição de rubrica; depende da qualidade do LLM utilizado |Avaliador Gemma 2B ajustado | Modelo pequeno treinado com rótulos da rubrica | Inferência rápida em GPUs modestas; bom acordo com escores da rubrica | Pode herdar vieses dos dados de treinamento |Avaliadores automatizados existentes (7) | Métodos automatizados anteriores | Comumente usados na literatura | Alinhamento com julgamentos humanos inferior ao do StrongREJECT |