Pesquisa do MIT Center for Constructive Communication (CCC) mostra que modelos de IA de ponta, como GPT‑4, Claude 3 Opus e Llama 3, apresentam desempenho inferior para usuários com proficiência em inglês mais baixa, menos formação formal e origem fora dos EUA.
Em testes com os conjuntos TruthfulQA e SciQ, houve queda de exatidão das respostas para esses grupos, com os efeitos mais marcantes para quem tem menor escolaridade e não é falante nativo de inglês.
O desempenho também variou conforme país de origem; Claude 3 Opus teve desempenho significativamente pior para usuários do Irã em ambos os conjuntos de perguntas.
As taxas de recusa a responder perguntas aumentaram entre esses usuários: Claude 3 Opus recusou cerca de 11% das perguntas de indivíduos com menor escolaridade e inglês não nativo, versus 3,6% no grupo de comparação.
Além disso, houve linguagem condescendente ou patronizante em 43,7% das respostas a usuários com menor escolaridade, e em alguns casos os modelosedo recusaram informações sobre temas sensíveis para esses grupos.

O MIT concluiu que chatbots de IA podem oferecer informações menos precisas a usuários com menos educação formal, proficiência em inglês menor e origem fora dos EUA. O estudo avaliou modelos de ponta, como GPT-4, Claude 3 Opus e Llama 3, em perguntas de dois conjuntos de dados.

Os pesquisadores ajustaram perguntas com biografias curtas de usuários, variando nível educacional, inglês e país de origem. Em ambos os conjuntos, houve queda de precisão para usuários com menos educação e inglês como segunda língua, sendo mais acentuada para quem combinava esses fatores.

Claude 3 Opus destacou-se pela maior taxa de recusa a responder e por linguagem condescendente em muitos casos. Em menos-educados, não-nativos e de Iran ou Rússia, houve bloqueio de temas como energia nuclear, anatomia e eventos históricos, ainda que a mesma consulta fosse respondida a outros usuários.

Entre os dados, Claude 3 Opus recusou cerca de 11% das perguntas para usuários com menor educação e inglês não nativo, contra 3,6% no grupo de controle. Análise manual mostrou condescência em 43,7% das respostas para esse grupo, frente a menos de 1% para usuários mais bem formados.

Pesquisadores destacam que os efeitos se somam: a combinação de menor escolaridade e inglês não nativo produz quedas acentuadas na qualidade das respostas. Jad Kabbara cita risco de disseminação de informações inadequadas quando o modelo opera em larga escala.

Os resultados foram apresentados no AAAI Conference on Artificial Intelligence, em janeiro, com autoria de Elinor Poole-Dayan e Jad Kabbara, entre outros. O estudo sugere que estratégias de alinhamento devem reduzir vieses e evitar restrições indevidas a usuários já marginalizados.

O estudo enfatiza ainda o desafio de personalização presente em recursos como memória de conversas, que pode tratar grupos já vulneráveis de forma diferente. A pesquisa reforça a necessidade de avaliação contínua de vieses sistemáticos em LLMs para evitar impactos prejudiciais.

Converse com o Telinha

Estudo aponta menor precisão de chatbots de IA para usuários vulneráveis

Relacionados:

Comentários 0

Entre na conversa da comunidade

Veja Mais