Skip to content
Apple Machine Learning Research
Source: machinelearning.apple.com

Investigando Viés Interseccional em LLMs via Disparidade de Confiança em Coreferência

Sources: https://machinelearning.apple.com/research/investigating-intersectional, machinelearning.apple.com

TL;DR

  • Construímos o WinoIdentity, que aumenta o WinoBias com 25 marcadores demográficos distribuídos em 10 atributos, cruzados com gênero binário.
  • O conjunto gera 245.700 prompts para avaliar 50 padrões de viés.
  • A métrica Coreference Confidence Disparity (CCD) mede diferenças de confiança do modelo entre identidades interseccionais.
  • Ao avaliar cinco LLMs recentemente publicados, observamos disparidades de confiança de até 40% entre atributos como tipo de corpo, orientação sexual e status socioeconômico.
  • Identidades duplamente desfavorecidas em contextos antiestereotipados apresentam maior incerteza; a confiança em coreferência pode diminuir mesmo para marcadores hegemônicos, sugerindo memorização em vez de raciocínio.

Contexto e antecedentes

Modelos de linguagem grandes (LLMs) têm demonstrado desempenho impressionante e são cada vez mais usados como ferramentas de suporte à decisão em contextos com poucos recursos, como recrutamento e admissões. Existe um consenso amplo de que sistemas de IA podem refletir e ampliar vieses sociais, levantando preocupações sobre danos baseados em identidade em ambientes sociais críticos. Trabalhos anteriores estabeleceram avaliações de justiça baseadas em demografia única em tarefas de raciocínio linguístico. Este trabalho avança para além de abordagens de eixo único ao investigar o viés interseccional, reconhecendo que a interseção de identidades cria padrões distintos de desvantagem.

O que há de novo

Este estudo apresenta o WinoIdentity, um conjunto de referência que amplia o WinoBias com 25 marcadores demográficos distribuídos em 10 atributos (incluindo idade, nacionalidade e raça) cruzados com gênero binário, gerando 245.700 prompts para avaliar 50 padrões de viés. A métrica Coreference Confidence Disparity identifica se modelos são mais ou menos confiantes para identidades interseccionais específicas.

Por que isso importa (impacto para desenvolvedores/empresas)

Para desenvolvedores e empresas que utilizam LLMs em contextos de alto risco, entender não só a acurácia, mas também a confiança do modelo entre identidades diversas, é crucial. Desigualdades de confiança podem levar a encaminhamentos inadequados, resultados inseguros ou padrões de erro que ampliem injustiças. Mesmo marker s hegemonizados ou privilegiados apresentando queda de confiança indica necessidade de alinhamento de valores, testes rigorosos e estratégias de implantação com gestão de risco.

Detalhes técnicos ou Implementação

  • Design do conjunto: WinoIdentity aumenta o WinoBias com 25 marcadores demográficos em 10 atributos, cruzados com gênero binário, gerando 245.700 prompts para 50 padrões de viés.
  • CCD (Coreference Confidence Disparity): métrica de justiça de grupo que avalia se modelos são mais ou menos confiantes para identidades interseccionais.
  • Avaliação: Cinco LLMs recentemente publicados foram avaliados para investigar disparidades de confiança entre uma variedade de atributos demográficos.
  • Principais achados: disparidades de confiança de até 40% entre identidades. Os modelos mostraram maior incerteza para identidades duplamente desfavorecidas em contextos antiestereotípicos; a confiança também diminuiu para marcadores privilegiados, sugerindo memorização em vez de raciocínio.
  • Implicações: sugerem falhas independentes de alinhamento de valores e validade que podem agravar danos sociais se não tratadas no desenvolvimento e implantação.

Pontos-chave

  • Avaliações de viés interseccional exigem referências que vão além de verificações de paridade de eixo único.
  • Métricas de confiança revelam disparidades não visíveis apenas pela acurácia.
  • O WinoIdentity fornece uma estrutura escalável para sondar 50 padrões de viés interseccional com 245.700 prompts.
  • Os resultados indicam discrepâncias de confiança relevantes (até 40%), incluindo para identidades privilegiadas; aponta para preocupações de memorização.
  • Enfrentar esses vieses é essencial para implantação responsável em contextos de alto risco.

Perguntas Frequentes

Referências

More news