Investigando Viés Interseccional em LLMs via Disparidade de Confiança em Coreferência
Sources: https://machinelearning.apple.com/research/investigating-intersectional, machinelearning.apple.com
TL;DR
- Construímos o WinoIdentity, que aumenta o WinoBias com 25 marcadores demográficos distribuídos em 10 atributos, cruzados com gênero binário.
- O conjunto gera 245.700 prompts para avaliar 50 padrões de viés.
- A métrica Coreference Confidence Disparity (CCD) mede diferenças de confiança do modelo entre identidades interseccionais.
- Ao avaliar cinco LLMs recentemente publicados, observamos disparidades de confiança de até 40% entre atributos como tipo de corpo, orientação sexual e status socioeconômico.
- Identidades duplamente desfavorecidas em contextos antiestereotipados apresentam maior incerteza; a confiança em coreferência pode diminuir mesmo para marcadores hegemônicos, sugerindo memorização em vez de raciocínio.
Contexto e antecedentes
Modelos de linguagem grandes (LLMs) têm demonstrado desempenho impressionante e são cada vez mais usados como ferramentas de suporte à decisão em contextos com poucos recursos, como recrutamento e admissões. Existe um consenso amplo de que sistemas de IA podem refletir e ampliar vieses sociais, levantando preocupações sobre danos baseados em identidade em ambientes sociais críticos. Trabalhos anteriores estabeleceram avaliações de justiça baseadas em demografia única em tarefas de raciocínio linguístico. Este trabalho avança para além de abordagens de eixo único ao investigar o viés interseccional, reconhecendo que a interseção de identidades cria padrões distintos de desvantagem.
O que há de novo
Este estudo apresenta o WinoIdentity, um conjunto de referência que amplia o WinoBias com 25 marcadores demográficos distribuídos em 10 atributos (incluindo idade, nacionalidade e raça) cruzados com gênero binário, gerando 245.700 prompts para avaliar 50 padrões de viés. A métrica Coreference Confidence Disparity identifica se modelos são mais ou menos confiantes para identidades interseccionais específicas.
Por que isso importa (impacto para desenvolvedores/empresas)
Para desenvolvedores e empresas que utilizam LLMs em contextos de alto risco, entender não só a acurácia, mas também a confiança do modelo entre identidades diversas, é crucial. Desigualdades de confiança podem levar a encaminhamentos inadequados, resultados inseguros ou padrões de erro que ampliem injustiças. Mesmo marker s hegemonizados ou privilegiados apresentando queda de confiança indica necessidade de alinhamento de valores, testes rigorosos e estratégias de implantação com gestão de risco.
Detalhes técnicos ou Implementação
- Design do conjunto: WinoIdentity aumenta o WinoBias com 25 marcadores demográficos em 10 atributos, cruzados com gênero binário, gerando 245.700 prompts para 50 padrões de viés.
- CCD (Coreference Confidence Disparity): métrica de justiça de grupo que avalia se modelos são mais ou menos confiantes para identidades interseccionais.
- Avaliação: Cinco LLMs recentemente publicados foram avaliados para investigar disparidades de confiança entre uma variedade de atributos demográficos.
- Principais achados: disparidades de confiança de até 40% entre identidades. Os modelos mostraram maior incerteza para identidades duplamente desfavorecidas em contextos antiestereotípicos; a confiança também diminuiu para marcadores privilegiados, sugerindo memorização em vez de raciocínio.
- Implicações: sugerem falhas independentes de alinhamento de valores e validade que podem agravar danos sociais se não tratadas no desenvolvimento e implantação.
Pontos-chave
- Avaliações de viés interseccional exigem referências que vão além de verificações de paridade de eixo único.
- Métricas de confiança revelam disparidades não visíveis apenas pela acurácia.
- O WinoIdentity fornece uma estrutura escalável para sondar 50 padrões de viés interseccional com 245.700 prompts.
- Os resultados indicam discrepâncias de confiança relevantes (até 40%), incluindo para identidades privilegiadas; aponta para preocupações de memorização.
- Enfrentar esses vieses é essencial para implantação responsável em contextos de alto risco.
Perguntas Frequentes
Referências
More news
Como reduzir gargalos do KV Cache com NVIDIA Dynamo
O Dynamo da NVIDIA transfere o KV Cache da memória da GPU para armazenamento de custo mais baixo, permitindo janelas de contexto maiores, maior concorrência e menor custo de inferência em grandes modelos.
Reduzindo a Latência de Cold Start para Inferência de LLM com NVIDIA Run:ai Model Streamer
Análise detalhada de como o NVIDIA Run:ai Model Streamer reduz o tempo de cold-start na inferência de LLMs ao transmitir pesos para a memória da GPU, com benchmarks em GP3, IO2 e S3.
Otimize o acesso a alterações de conteúdo ISO-rating com Verisk Rating Insights e Amazon Bedrock
Verisk Rating Insights, impulsionado pelo Amazon Bedrock, LLMs e RAG, oferece uma interface conversacional para acessar mudanças ERC ISO, reduzindo downloads manuais e aumentando a velocidade e a precisão das informações.
Como a msg otimizou a transformação de RH com Amazon Bedrock e msg.ProfileMap
Este post mostra como a msg automatizou a harmonização de dados para o msg.ProfileMap usando o Amazon Bedrock para alimentar fluxos de enriquecimento de dados alimentados por LLM, elevando a precisão na correspondência de conceitos de RH, reduzindo trabalho manual e alinhando-se ao EU AI Act e ao GD
Automatize pipelines RAG avançadas com SageMaker AI da AWS
Aperfeiçoe a experimentação até a produção para Retrieval Augmented Generation (RAG) com SageMaker AI, MLflow e Pipelines, promovendo fluxos reprodutíveis, escaláveis e com governança.
Implante Inferência de IA Escalável com NVIDIA NIM Operator 3.0.0
O NVIDIA NIM Operator 3.0.0 amplia a inferência de IA escalável no Kubernetes, permitindo implantações multi-LLM e multi-nó, integração com KServe e suporte a DRA em modo de tecnologia, com colaboração da Red Hat e NeMo Guardrails.