A Anthropic pediu desculpas por ter throttled oculto no Claude Fable 5, com guardrails invisíveis que prejudicavam pesquisadores e potenciais concorrentes na distilação de modelos.
A empresa informou que tornará essas restrições visíveis e, se acionadas, o Fable pode recusar mais consultas.
O Fable é o primeiro modelo amplamente disponível da classe Mythos e já vem com salvaguardas para evitar perguntas de alto risco, incluindo distilação.
Anteriormente, as respostas podiam ser alteradas sem avisar o usuário; agora as consultas que visam distilação serão redirecionadas para Claude Opus 4.8, com aviso explícito ao usuário sempre que isso ocorrer.
a mudança ocorre após forte reação da comunidade de pesquisa em IA, que criticou as salvaguardas invisíveis. Em áreas como biologia, química e cibersegurança, as consultas costumam seguir para o Opus 4.8, conforme o novo funcionamento.

Anthropic pediu desculpas por ter mantido em segredo as salvaguardas que limitam o modelo Claude Fable 5, lançado sob a linha Mythos. A empresa afirma que tornará visível quando as restrições entram em ação, mesmo que isso reduza a quantidade de consultas atendidas.

O Fable 5 inclui filtros que restringem perguntas de alto risco, como distilhação de modelos. Em seu ficha de sistema, a empresa orienta que tentativas de distilar modelos sejam tratadas com alterações nas respostas, sem avisos aos usuários.

Agora, as consultas de distilação devem recair no Claude Opus 4.8, segundo anúncio feito pela empresa. O usuário será informado de que a mudança ocorreu sempre que o recurso for acionado.

A mudança veio após críticas da comunidade de pesquisa em IA sobre a prática de bloqueios ocultos que afetam avaliadores e terceiros. A empresa sinaliza que o novo protocolo oferece maior transparência sobre quando as salvaguardas entram em funcionamento.

A medida é comparável a como Fable encaminha perguntas de alto risco para o Opus 4.8, mantendo regras mais amplas para conteúdos proibidos. Em alguns casos, a calibragem das salvaguardas tem dificultado perguntas básicas.

Anteriormente, a Anthropic defendeu a necessidade de salvaguardas invisíveis para acelerar o desenvolvimento, mas reconhece que o equilíbrio entre visibilidade e rapidez estava incorreto. A empresa reforça o compromisso com clareza sobre as salvaguardas.

Converse com o Telinha

Anthropic pede desculpas por barreiras invisíveis do Claude Fable

Relacionados:

Comentários 0

Entre na conversa da comunidade

Veja Mais