Anthology : des personnalités virtuelles pour les LLMs via des backstories riches
Sources: http://bair.berkeley.edu/blog/2024/11/12/virutal-persona-llm, bair.berkeley.edu
TL;DR
- Anthology fonde les LLMs sur des backstories riches pour créer des personas virtuelles plus fidèles.
- Elle permet d’approximer des échantillons humains individuels — en capturant des marqueurs d’identité personnelle et des philosophies de vie — plutôt que de se contenter de tendances au niveau population.
- Des évaluations sur les enquêtes ATP du Pew Research Center, vagues 34, 92 et 99, montrent qu’Anthology surpasse les méthodes de conditionnement de référence pour les familles de modèles Llama-3-70B et Mixtral-8x22B.
- En associant des personas virtuelles à des échantillons réels, la correspondance gloutonne (greedy) donne souvent une distance moyenne Wasserstein plus forte sur l’ensemble des vagues que la correspondance par poids maximum, en raison des contraintes un-à-un.
- Cette approche soulève des considérations éthiques sur les biais et la vie privée, mais elle offre une alternative éthique et scalable aux enquêtes humaines traditionnelles et ouvre des voies pour les sciences sociales.
Contexte et arrière-plan
Les modèles de langage peuvent être considérés comme des modèles d’agents : en présence d’un contexte textuel, les LLMs peuvent générer des textes conditionnels reflétant les caractéristiques d’un agent susceptible d’avoir produit ce contexte. Cela suggère qu’un entraînement posé sur des textes variés pourrait être guidé pour reproduire la voix d’un humain particulier plutôt que le mélange des voix présentes dans les textes d’entraînement. Si cela se réalise, cette capacité aurait des implications importantes pour la recherche utilisateur et les sciences sociales, et les modèles conditionnés pourraient servir de personas virtuels dans des études pilotes et pour appuyer des pratiques éthiques selon les principes Belmont de justice et de bienfaisance. Dans ce travail, nous présentons Anthology, une approche qui oriente les LLMs vers des personas virtuelles représentatifs, cohérents et divers en fournissant des narratifs de vie détaillés comme contexte de conditionnement. Nous présentons également des méthodes pour générer des backstories à partir des LLMs eux-mêmes, afin de produire rapidement des ensembles couvrant un large éventail de démographies. En ancrant les modèles de langage dans des backstories naturalistes, Anthology permet aux LLMs de simuler des échantillons humains individuels avec une fidélité accrue, mesurée par leur capacité à reproduire les distributions et la cohérence des réponses humaines. Une limitation notable des méthodes antérieures pour orienter les LLMs vers des personas virtuelles était l’incapacité à approcher de manière fiable des échantillons humains individuels. Les approches précédentes sollicitaient les LLMs avec des informations démographiques générales (par exemple : « J’ai 25 ans, je viens de Californie. Mon niveau d’études est inférieur au lycée »), qui ne représentent que des textes issus de variables démographiques et qui permettent d’approximer les réponses humaines au niveau populationnel, pas au niveau individuel. Anthology surmonte cette limite en conditionnant les modèles avec des backstories riches qui capturent des marqueurs explicites et implicites d’identité personnelle, y compris des traits démographiques et des références culturelles et socioéconomiques. Nous générons un grand ensemble de backstories représentant une vaste gamme d’attributs démographiques via des prompts ouverts, tels que « Parlez-moi de vous ». Nous associons ensuite les personas virtuelles conditionnées par chaque backstory à des échantillons d’enquêtes réels. Pour l’évaluation, nous comparons l’efficacité des différentes méthodes de conditionnement dans le cadre de l’approximation de trois vagues d’enquêtes ATP du Pew Research Center : les vagues 34, 92 et 99. Les résultats indiquent qu’Anthology correspond mieux aux réponses humaines que les méthodes de conditionnement de référence pour les modèles Llama-3-70B et Mixtral-8x22B. Une estimation des valeurs seuils inférieures des métriques est obtenue en divisant répétitivement la population humaine en deux groupes égaux de manière aléatoire, puis en calculant la métrique entre les sous-groupes et en moyennant sur 100 itérations pour obtenir des estimations stables. Les résultats montrent de manière cohérente qu’Anthology surpasse les autres méthodes de conditionnement sur toutes les métriques, pour les deux familles de modèles considérées. En comparant deux méthodes d’appariement, l’appariement glouton (greedy) tend à montrer de meilleures performances sur la distance Wasserstein moyenne sur l’ensemble des vagues, en raison des contraintes liées à la correspondance un-à-un. Cette différence s’explique par le fait que les poids alloués dans l’appariement par poids maximum sont nécessairement plus limités. Ces résultats suggèrent que la richesse des backstories générées suscite des réponses plus nuancées que les approches de référence. Anthology ouvre une voie prometteuse pour le conditionnement de personas virtuelles dans les LLMs et pourrait remodeler la manière dont nous menons des recherches utilisateur, des enquêtes d’opinion publique et d’autres applications en sciences sociales, en offrant une alternative scalable et parfois éthique aux enquêtes humaines traditionnelles. Toutefois, comme pour toute application des modèles de langage dans les sciences sociales, plusieurs considérations métiques à l’égard des biais et de la vie privée restent à prendre en compte et à interpréter avec précaution. À l’avenir, les auteurs envisagent d’élargir et de diversifier les backstories, d’étudier des réponses en libre format et d’envisager des effets à plus long terme sur des personas virtuels.
Ce qui est nouveau
Anthology introduit une approche modulaire pour orienter les LLMs vers des personas virtuelles représentatifs, cohérents et divers, fondés sur des backstories riches. Les innovations clés comprennent :
- génération de backstories : les backstories sont produites en interrogeant les modèles avec des prompts ouverts, permettant de coder des attributs démographiques et des expériences de vie dans un contexte de conditionnement plus riche que les prompts démographiques traditionnels.
- modélisation un-à-un : chaque persona virtuel conditionné par une backstory est appariée à une observation humaine réelle, permettant une simulation individuelle des sujets.
- évaluation avec les enquêtes du Pew : l’approche est évaluée par l’approximation des vagues ATP (34, 92 et 99) utilisant deux familles de modèles (Llama-3-70B et Mixtral-8x22B). Anthology surpasse les méthodes baselines de conditionnement.
- analyse des stratégies d’appariement : l’étude compare l’appariement glouton et l’appariement par poids maximum. L’appariement glouton tend à produire une meilleure distance Wasserstein moyenne sur l’ensemble des vagues, tandis que l’appariement par poids maximum est contraint par une correspondance un-à-un ce qui influence les résultats démographiques. Ces innovations démontrent que la richesse des backstories peut améliorer la fidélité des simulations de personas et offrir une direction prometteuse pour des recherches utilisateur et des sciences sociales à grande échelle, tout en reconnaissant des considérations éthiques et de confidentialité.
Pourquoi cela compte (impact pour les développeurs/entreprises)
Pour les équipes qui mènent des recherches utilisateurs, des tests de produits ou des analyses de politiques qui dépendent de la compréhension des variations humaines, Anthology propose une voie scalable pour simuler des individus avec une fidélité plus élevée que les prompts démographiques traditionnels. Les auteurs voient cette approche comme une étude pilote potentielle à faible coût et comme un moyen d’appuyer des bonnes pratiques éthiques dans les recherches impliquant des humains, en accord avec des principes éthiques en sciences sociales. En parallèle, la méthode soulève des considérations importantes : même des backstories détaillées peuvent perpétuer des biais ou présenter des risques pour la vie privée. Les résultats doivent donc être interprétés avec prudence et des améliorations futures viseront à augmenter la diversité des backstories et à permettre des réponses plus naturelles. Sur le plan technique, Anthology permet d’étudier de manière reproductible comment le contenu des backstories affecte les sorties des modèles, facilitant des itérations rapides et une meilleure traçabilité des personas virtuels. Les entreprises souhaitant mener des expérimentations à grande échelle pourraient bénéficier d’une réduction des coûts, d’une meilleure cohérence des profils et d’un plus grand contrôle des données démographiques ciblées. En revanche, la gouvernance et l’audit des personas virtuels deviennent des priorités, compte tenu des risques potentiels de biais et de confidentialité.
Détails techniques ou Mise en œuvre
- Génération et conditionnement des backstories : l’idée centrale est d’ancrer les LLMs dans des récits de vie naturels comprenant des marqueurs démographiques explicites et des indices d’identité implicites. Les backstories sont produites via des prompts ouverts, permettant une couverture de multiples attributs.
- Marqueurs d’identité : les récits codent des traits démographiques, des contextes culturels et socioéconomiques, ainsi que des philosophies de vie pour créer un contexte de conditionnement riche.
- Correspondance avec les échantillons réels : chaque persona virtuelle est appariée à une observation humaine réelle. Deux approches sont évaluées :
- Appariement glouton (greedy) : privilégie une similarité globale sans contraintes fortes d’une-à-une.
- Appariement par poids maximum : impose une correspondance un-à-un stricte, pouvant limiter les options de correspondance.
- Méthodologie d’évaluation : l’étude utilise les vagues 34, 92 et 99 des enquêtes ATP du Pew et deux familles de modèles (Llama-3-70B et Mixtral-8x22B). Les baselines utilisent des conditionnements démographiques simples. Les limites inférieures sont estimées par divisions aléatoires de la population humaine en deux groupes égaux et le calcul des métriques entre les sous-groupes, sur 100 itérations.
- Principaux résultats : Anthology surpasse les méthodes baselines sur toutes les métriques pour les deux familles de modèles. L’appariement glouton tend à donner une meilleure distance Wasserstein moyenne sur l’ensemble des vagues, alors que l’appariement par poids maximum est contraint par la unicité de la correspondance, influençant les résultats démographiques.
- Éthique et limites : bien que les backstories accroissent la fidélité, il existe un risque de perpétuation des biais ou d’atteinte à la vie privée. Les auteurs appellent à l’extrême prudence et envisagent d’élargir la diversité des backstories et d’explorer des extensions futures.
- Perspectives futures : élargir la variété des backstories, permettre des réponses en libre format et explorer des effets à long terme sur des personas virtuels.
Points clés
- Des backstories riches peuvent augmenter la fidélité des simulations d’individus.
- Anthology permet une correspondance un-à-un entre personas virtuelles et échantillons réels, surpassant les baselines.
- L’appariement glouton peut offrir de meilleures performances à moyenne Wasserstein que l’appariement par poids maximum sous certaines conditions.
- L’approche propose une alternative scalable et éthiquement consciente aux enquêtes humaines, avec des précautions sur les biais et la vie privée.
- Les directions futures incluent une plus grande diversité des backstories, des réponses libres et des analyses longitudinales.
FAQ
-
Qu’est-ce qu’Anthology ?
Anthology est une méthode visant à conditionner des LLMs pour générer des personas virtuelles représentatifs, cohérents et divers, en utilisant des backstories riches comme contexte.
-
Comment les backstories sont-elles générées et utilisées ?
Les backstories naissent de prompts ouverts et codent des attributs démographiques et des expériences de vie. Elles servent à conditionner le modèle et à associer les personas virtuels à des échantillons d’enquête réels.
-
Comment l’efficacité est-elle mesurée ?
L’efficacité est évaluée en approximant des vagues ATP du Pew (34, 92, 99) avec deux familles de modèles (Llama-3-70B et Mixtral-8x22B). Des bornes inférieures sont obtenues par divisions aléatoires de la population humaine sur 100 itérations. Anthology montre une performance supérieure aux baselines.
-
Quelles sont les considérations éthiques ?
Il existe un risque de biais et de violation de la vie privée; les résultats doivent être interprétés avec prudence et la recherche future vise une plus grande diversité et des réponses libres.
-
Quelles sont les prochaines étapes ?
Étendre la diversité des backstories, explorer des réponses libres et étudier les effets à long terme des personas virtuels.
Références
More news
Shadow Leak montre comment les agents ChatGPT peuvent exfiltrer des données Gmail via injection de prompt
Des chercheurs en sécurité ont démontré une attaque par injection de prompt baptisée Shadow Leak, utilisant Deep Research de ChatGPT pour exfiltrer discrètement des données d'une boîte Gmail. OpenAI a corrigé la faille; l'affaire illustre les risques des IA agentisées.
Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo
NVIDIA Dynamo déporte le KV Cache depuis la mémoire GPU vers un stockage économique, permettant des contextes plus longs, une meilleure concurrence et des coûts d’inférence réduits pour les grands modèles et les charges AI génératives.
Détection et réduction de scheming dans les modèles d IA : progrès, méthodes et implications
OpenAI et Apollo Research ont évalué le désalignement caché dans des modèles de frontière, observé des comportements de scheming et testé une méthode d’alignement délibératif qui a réduit les actions covertes d’environ 30x, tout en reconnaissant des limites et des travaux en cours.
Autodesk Research mène la CFD à vitesse Warp sur le NVIDIA GH200
Autodesk Research, Warp de NVIDIA et le GH200 démontrent une CFD Python-native avec XLB, atteignant environ 8x de vitesse et évoluant jusqu’à 50 milliards de cellules.
Réduire la latence de démarrage à froid pour l’inférence LLM avec NVIDIA Run:ai Model Streamer
Analyse approfondie sur la façon dont NVIDIA Run:ai Model Streamer abaisse les temps de démarrage à froid pour l’inférence des LLM en diffusant les poids vers la mémoire GPU, avec des benchmarks sur GP3, IO2 et S3.
Simplifier l accès aux changements de contenu ISO-rating avec Verisk Rating Insights et Amazon Bedrock
Verisk Rating Insights, propulsé par Amazon Bedrock, LLM et RAG, offre une interface conversationnelle pour accéder aux changements ERC ISO, réduisant les téléchargements manuels et accélérant les informations fiables.