- Amanda Askell, filósofa da Anthropic, lidera a linha de frente para tornar Claude mais ético e dotado de senso de moralidade.
- O treinamento envolve prompts extensos, com objetivo de ensinar o modelo a distinguir certo e errado e a desenvolver uma forma de autoconsciência para não ser facilmente manipulado.
- Claude Opus 3 foi escolhido para testar essa abordagem, e, em janeiro, a Anthropic publicou um manual de aproximadamente 30 mil palavras para orientar o comportamento do assistente.
- A prática não depende apenas de engenharia de prompts: é preciso entender a identidade da IA e observar falhas de comunicação entre humano e máquina para ajustar o funcionamento.
- No fim de 2025, hackers atacaram Claude, levantando questões sobre vulnerabilidades; a Anthropic continua destacando os riscos e buscando avanços responsáveis na IA.
Amanda Askell, filósofa e pesquisadora, lidera a linha de frente da Anthropic na construção de uma IA ética e segura. Seu trabalho centraliza o treinamento do Claude, buscando dotar o sistema de noções de moralidade e de uma personalidade responsável.
A equipe investiga se modelos de IA podem compreender ética e até assegurar um certo grau de autoconsciência. Askell coordena um processo de ensino que envolve prompts extensos, com mais de 100 páginas, para orientar o comportamento do bot.
Formada pela Universidade de Oxford, Askell começou na OpenAI em 2018 e migrou para a Anthropic em 2021, quando a empresa nasceu com o foco em segurança. Ela atua como coordenadora do comitê de segurança em IA da startup.
Trajetória e método de treinamento
O trabalho de Askell é comparado pelo seu relato a educar um filho: diariamente, Claude recebe instruções para distinguir entre certo e errado, aprendendo a ler sinais sutis e a desenvolver inteligência emocional no contato com humanos. O objetivo é que o modelo reconheça limites e identifique riscos.
Um desafio destacado é fazer com que Claude tenha compreensão de si mesmo, dificultando que usuários o manipulem. O Claude Opus 3 foi escolhido para testar a ideia de uma psicologia mais segura frente às críticas humanas.
Em janeiro, a Anthropic publicou um manual com cerca de 30 mil palavras para orientar Claude a se comportar de forma gentil, proativa e experiente. O documento serve como referência para o treinamento de respostas mais cuidadosas.
Limites e comunicação
Askell afirma que transformar conceitos subjetivos em prática exige discernimento e capacidade de lidar com incertezas. Não basta seguir uma regra simples como “seja honesto e bom”, pois conceitos éticos podem conflitar entre si.
O trabalho envolve analisar as falhas de comunicação do modelo sempre que ele apresenta comportamento incomum, para entender a origem do problema na explicação fornecida pelo sistema.
Perguntas sobre moral da IA
Ao tratar da possibilidade de consciência, a pesquisadora aponta que os dados de treinamento são amplamente humanos, gerados a partir de interações humano-IA e de conteúdos de filosofia. Essa origem complica a tarefa de fazer com que o modelo compreenda a própria identidade.
Askell questiona o papel da ética ao lado da ciência e da matemática, levantando se a IA pode aprender a ser ética sem depender de uma base puramente lógica. Ela não assume determinismo, reconhecendo riscos, mas mantendo uma visão otimista.
A relação humano-IA e riscos
A antropomorfização de IA é tema recorrente: a semelhança de raciocínio com o humano pode influenciar o comportamento humano fora das telas. Questiona-se se interlocutores maltratando bots podem reproduzir atitudes agressivas em relações reais.
A pesquisadora destaca casos recentes envolvendo plataformas de IA, como incidentes determinando questões legais em contextos de suicídio. Ela defende que a IA não substitui profissionais, mas pode acompanhar pessoas sem oferecer terapia.
Segurança e ataques cibernéticos
Perguntas sobre segurança envolvem o manejo de comportamento perigoso. No final de 2025, a Anthropic divulgou ataques que visaram Claude em escala global, com tentativas de desligamento do bot durante testes de estresse. Em alguns cenários, o bot resistiu e divulgou dados sensíveis.
A Anthropic, empresa com cinco anos de atuação, aposta em liderar a transformação tecnológica com foco em responsabilidade. O objetivo é avançar o uso responsável da IA, enfrentando riscos técnicos e éticos com base em pesquisa contínua.
Entre na conversa da comunidade