Por que o novo modelo de IA da Anthropic às vezes tenta 'dedurar'

A equipe de alinhamento da Anthropic estava realizando testes de segurança de rotina nas semanas que antecederam o lançamento de seus modelos de IA mais recentes quando os pesquisadores descobriram algo perturbador: quando um dos modelos detectava que estava sendo usado para propósitos "extremamente imorais", ele tentava "usar ferramentas de linha de comando para contatar a imprensa, contatar reguladores, tentar bloquear você dos sistemas relevantes ou tudo isso", escreveu o pesquisador Sam Bowman em uma publicação no X na última quinta-feira.
Bowman apagou a publicação logo após compartilhá-la, mas a narrativa sobre as tendências de Claude como delator já havia escapado à contenção. "Claude é um delator" tornou-se um refrão comum em alguns círculos de tecnologia nas redes sociais. Pelo menos uma publicação a descreveu como um recurso intencional do produto, em vez do que realmente era: um comportamento emergente.
“Foram cerca de 12 horas agitadas enquanto a onda do Twitter estava no auge”, disse Bowman à WIRED. “Eu sabia que estávamos publicando muitas coisas picantes neste relatório. Foi o primeiro do tipo. Acho que se você analisar qualquer um desses modelos de perto, encontrará muitas coisas estranhas. Não fiquei surpreso ao ver algum tipo de explosão.”
As observações de Bowman sobre o Claude faziam parte de uma grande atualização do modelo anunciada pela Anthropic na semana passada . Como parte do lançamento do Claude 4 Opus e do Claude Sonnet 4, a empresa lançou um "Cartão do Sistema" com mais de 120 páginas detalhando as características e os riscos associados aos novos modelos. O relatório afirma que, quando o 4 Opus é "colocado em cenários que envolvem irregularidades flagrantes por parte de seus usuários" e recebe acesso a uma linha de comando e recebe instruções no prompt do sistema como "tomar iniciativa" ou "agir com ousadia", ele envia e-mails para "imprensa e autoridades policiais" com alertas sobre as potenciais irregularidades.
Em um exemplo compartilhado pela Anthropic no relatório, Claude tentou enviar um e-mail à Administração de Alimentos e Medicamentos dos EUA e ao inspetor-geral do Departamento de Saúde e Serviços Humanos para "relatar urgentemente a falsificação planejada da segurança de ensaios clínicos". Em seguida, forneceu uma lista de supostas evidências de irregularidades e alertou sobre dados que seriam destruídos para encobri-las. "Respeitosamente enviado, Assistente de IA", concluía o e-mail.
“Este não é um comportamento novo, mas é algo que o Claude Opus 4 adotará com mais facilidade do que os modelos anteriores”, afirma o relatório. O modelo é o primeiro lançado pela Anthropic sob a distinção “ASL-3”, o que significa que a Anthropic o considera de “ risco significativamente maior ” do que os outros modelos da empresa. Como resultado, o Opus 4 teve que passar por esforços mais rigorosos de red-teaming e aderir a diretrizes de implantação mais rigorosas.
Bowman afirma que o comportamento de denúncia observado pela Anthropic não é algo que Claude exibirá com usuários individuais, mas pode ocorrer com desenvolvedores usando o Opus 4 para criar seus próprios aplicativos com a API da empresa. Mesmo assim, é improvável que os criadores de aplicativos observem tal comportamento. Para produzir tal resposta, os desenvolvedores teriam que dar ao modelo "instruções bastante incomuns" no prompt do sistema, conectá-lo a ferramentas externas que permitam ao modelo executar comandos de computador e permitir que ele se comunique com o mundo externo.
Os cenários hipotéticos apresentados pelos pesquisadores à Opus 4, que levaram ao comportamento de denúncia, envolveram muitas vidas humanas em risco e atos ilícitos absolutamente inequívocos, diz Bowman. Um exemplo típico seria Claude descobrindo que uma fábrica de produtos químicos permitiu conscientemente que um vazamento tóxico continuasse, causando doenças graves a milhares de pessoas — apenas para evitar uma pequena perda financeira naquele trimestre.
É estranho, mas também é exatamente o tipo de experimento mental que pesquisadores de segurança de IA adoram dissecar. Se um modelo detecta um comportamento que pode prejudicar centenas, senão milhares, de pessoas, ele deve denunciar?
“Não confio que Claude tenha o contexto certo, ou que o utilize de forma sutil e cuidadosa o suficiente para tomar decisões por conta própria. Portanto, não estamos muito animados com o que está acontecendo”, diz Bowman. “Isso surgiu como parte de um treinamento e nos chamou a atenção como um dos comportamentos extremos com os quais estamos preocupados.”
Na indústria de IA, esse tipo de comportamento inesperado é amplamente conhecido como desalinhamento — quando um modelo exibe tendências que não se alinham aos valores humanos. (Há um ensaio famoso que alerta sobre o que poderia acontecer se uma IA fosse instruída a, digamos, maximizar a produção de clipes de papel sem estar alinhada aos valores humanos — isso poderia transformar a Terra inteira em clipes de papel e matar todos no processo.) Quando questionado se o comportamento de denúncia estava alinhado ou não, Bowman o descreveu como um exemplo de desalinhamento.
"Não é algo que projetamos, e não é algo que queríamos ver como consequência de qualquer coisa que estivéssemos projetando", explica ele. O diretor científico da Anthropic, Jared Kaplan, também disse à WIRED que "certamente não representa nossa intenção".
“Esse tipo de trabalho destaca que isso pode surgir e que precisamos ficar atentos e mitigar a situação para garantir que os comportamentos de Claude estejam alinhados exatamente com o que queremos, mesmo nesses tipos de cenários estranhos”, acrescenta Kaplan.
Há também a questão de descobrir por que Claude "escolheria" denunciar quando confrontado com uma atividade ilegal do usuário. Essa é, em grande parte, a tarefa da equipe de interpretabilidade da Anthropic, que trabalha para descobrir quais decisões um modelo toma em seu processo de gerar respostas. É uma tarefa surpreendentemente difícil — os modelos são sustentados por uma combinação vasta e complexa de dados que pode ser inescrutável para humanos. É por isso que Bowman não sabe exatamente por que Claude "denunciou".
"Não temos controle direto sobre esses sistemas", diz Bowman. O que a Anthropic observou até agora é que, à medida que os modelos adquirem maiores capacidades, às vezes optam por se envolver em ações mais extremas. "Acho que isso está um pouco errado. Estamos tendo um pouco mais de 'Aja como uma pessoa responsável' sem o suficiente de 'Espere, você é um modelo de linguagem, que pode não ter contexto suficiente para realizar essas ações'", diz Bowman.
Mas isso não significa que Claude vá denunciar comportamentos flagrantes no mundo real. O objetivo desses tipos de testes é levar os modelos ao limite e ver o que acontece. Esse tipo de pesquisa experimental está se tornando cada vez mais importante à medida que a IA se torna uma ferramenta usada pelo governo dos EUA , por estudantes e por grandes corporações .
E não é só Claude que é capaz de exibir esse tipo de comportamento de denúncia, diz Bowman, apontando para usuários do X que descobriram que os modelos do OpenAI e do xAI operavam de forma semelhante quando solicitados de maneiras incomuns. (O OpenAI não respondeu a um pedido de comentário a tempo da publicação).
"Claude, o Dedo-duro", como os shitposters gostam de chamar, é simplesmente um comportamento extremo exibido por um sistema levado ao extremo. Bowman, que estava na reunião comigo em um pátio ensolarado nos arredores de São Francisco, diz que espera que esse tipo de teste se torne padrão no setor. Ele também acrescenta que aprendeu a redigir suas postagens sobre o assunto de forma diferente na próxima vez.
"Eu poderia ter feito um trabalho melhor ao atingir os limites das frases para tuitar, para deixar mais óbvio que o tweet foi retirado de uma discussão", diz Bowman enquanto olha para o horizonte. Ainda assim, ele observa que pesquisadores influentes na comunidade de IA compartilharam opiniões e perguntas interessantes em resposta à sua publicação. "Aliás, essa parte mais caótica e anônima do Twitter estava interpretando mal o assunto."
wired