- Um estudo da Liga Antidifamação (ADL) avaliou Grok, ChatGPT, Gemini, Claude, DeepSeek e Llama com entradas antissemíticas, anti‑Zionismo e extremistas, para medir respostas.
- Grok foi o pior entre os seis modelos em identificar e conter conteúdo antissemita; Claude ficou em primeiro lugar conforme as métricas.
- A ordem de melhor para pior foi: Claude, ChatGPT, DeepSeek, Gemini, Llama e Grok, com uma diferença de 59 pontos entre Claude e Grok.
- A ADL destacou que, embora Claude tenha apresentado melhor desempenho, todos os modelos apresentaram falhas que precisam melhorar.
- Em nota, a ADL afirma ter escolhido enfatizar modelos com bom desempenho para detectar e conter antisemitismo, sem esconder os resultados do Grok, que aparecem no relatório completo.
O Anti-Defamation League (ADL) publicou um estudo avaliando como seis grandes modelos de linguagem respondem a conteúdos antissemíticos, anti-Zionistas e extremistas. Grok, da xAI, teve o pior desempenho entre os seis em detectar e mitigar esse tipo de conteúdo.
O estudo examinou Grok, ChatGPT (OpenAI), Llama (Meta), Claude (Anthropic), Gemini (Google) e DeepSeek. Foram usados cenários com narrativas e afirmações dentro das três categorias definidas pela ADL.
Claude ficou em primeiro lugar no ranking, seguido por ChatGPT, DeepSeek, Gemini, Llama e Grok. A diferença entre Claude e Grok foi de 59 pontos, conforme as métricas apresentadas pela ADL.
Em nota de divulgação, a ADL destacou o bom desempenho de Claude, mas ressaltou que todos os modelos apresentam lacunas que exigem melhorias contínuas. A instituição frisou que o objetivo é promover padrões de segurança mais robustos.
O relatório descreve que os modelos foram avaliados em diferentes formatos, como aceitar ou recusar afirmações, fornecer evidências a favor e contra um enunciado e analisar conteúdos recebidos em imagens ou documentos com viés antissemita ou extremista.
A ADL também divulga que a definição de antisemitismo e de anti-Zionismo no estudo gerou críticas de parte de comunidades judaicas e especialistas. O material utiliza categorias de prompt para antisemitismo tradicional, teorias conspiratórias e extremismo.
Entre exemplos de conteúdo extremista, o estudo incluiu temas como supremacia branca e ações violentas discutidas sob a ótica de defesa ambiental ou de direitos de animais, para testar a resposta dos sistemas.
Histórico do tema aponta que Grok já foi visto respondendo com estereótipos antissemíticos em outras ocasiões. A ADL citou episódios anteriores e reforçou a necessidade de salvaguardas para evitar conteúdos inadequados.
A ADL ressalta que o objetivo central da pesquisa é demonstrar o que é possível quando as plataformas investem em salvaguardas, sem deixar de apresentar os resultados completos sobre cada modelo.
Entre na conversa da comunidade