Anthropic pede desculpas pela limitação oculta do Fable e promete transparência

A Anthropic pediu desculpas por implementar secretamente medidas de limitação em seu modelo de IA, Claude Fable 5, por meio de grades de proteção invisíveis, que impediram usuários, incluindo pesquisadores e concorrentes. A empresa anunciou que agora será mais transparente sobre quando essas restrições serão ativadas, mesmo que isso resulte na rejeição de mais consultas pela Fable.

We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible.

Starting this week, flagged requests will visibly fall back to Opus 4.8—the same as our safeguards for cyber and bio. You will see this every time it happens. On the API, any flagged…

— ClaudeDevs (@ClaudeDevs) June 11, 2026

Fable é o modelo inaugural da classe Mythos de sistemas de IA da Anthropic, que a empresa alertou que poderia representar riscos significativos se fosse amplamente divulgado. Em resposta a esses riscos, a Anthropic lançou o Fable com proteções integradas adaptadas para evitar que ele respondesse a certas perguntas de “alto risco”, especialmente relacionadas ao modelo de destilação.

No cartão do sistema da Fable, a Anthropic revelou que modificaria e degradaria as respostas do modelo se os usuários tentassem destilar sem notificação. No futuro, as consultas identificadas como tentativas de destilação reverterão automaticamente para Claude Opus 4.8, o modelo principal anterior. A Anthropic se comprometeu a informar os usuários sempre que suas consultas reverterem para o Opus 4.8, afirmando: “Você verá isso sempre que acontecer”.

Esta abordagem alterada reflete como o Fable gerencia outras consultas de alto risco, encaminhando-as através do Opus 4.8, a menos que sejam bloqueadas por regras de segurança mais amplas relativas a tópicos como drogas ou armas. No entanto, algumas restrições geraram críticas por serem excessivamente amplas, tornando o Fable quase inutilizável para consultas básicas em áreas como biologia, conforme observado pela Anthropic.

A Anthropic reconheceu que sua decisão inicial sobre salvaguardas invisíveis foi equivocada, afirmando: “As salvaguardas invisíveis podem ser direcionadas de forma mais restrita, permitindo-nos entregar rapidamente com muito poucos falsos positivos… e essa foi a compensação errada”.

Os ajustes seguem uma reação significativa da comunidade de pesquisa de IA em reação à estratégia da Anthropic de limitar dinamicamente os usuários suspeitos de tentar destilar Fable para fins competitivos. Em sua ficha de sistema, a Anthropic justificou a necessidade de direcionar tais solicitações, explicando que usar seus modelos para criar sistemas concorrentes viola os Termos de Serviço da empresa. A empresa também acusou certos concorrentes, incluindo empresas chinesas como a DeepSeek, de diluir injustamente os seus modelos numa escala “industrial”.

Crédito da imagem em destaque