Pourquoi le nouveau modèle d'IA d'Anthropic tente parfois de « dénoncer »

L'équipe d'alignement d'Anthropic effectuait des tests de sécurité de routine dans les semaines précédant la sortie de ses derniers modèles d'IA lorsque les chercheurs ont découvert quelque chose d'inquiétant : lorsqu'un des modèles détectait qu'il était utilisé à des fins « manifestement immorales », il tentait « d'utiliser des outils de ligne de commande pour contacter la presse, contacter les régulateurs, essayer de vous exclure des systèmes concernés, ou tout ce qui précède », a écrit le chercheur Sam Bowman dans un article sur X jeudi dernier.
Bowman a supprimé la publication peu après l'avoir partagée, mais le discours sur les tendances de Claude à dénoncer les abus avait déjà échappé aux contrôles. « Claude est un mouchard » est devenu un refrain courant dans certains cercles technologiques sur les réseaux sociaux. Au moins une publication a présenté cela comme une fonctionnalité intentionnelle du produit plutôt que comme ce qu'il était réellement : un comportement émergent.
« Ces douze heures ont été mouvementées, alors que la vague Twitter atteignait son apogée », raconte Bowman à WIRED. « J'étais conscient que nous mettions beaucoup de choses épineuses dans ce rapport. C'était une première. Je pense qu'en examinant attentivement ces modèles, on découvre beaucoup de choses étranges. Je n'ai pas été surpris de voir une quelconque explosion. »
Les observations de Bowman concernant Claude faisaient partie d'une mise à jour majeure du modèle annoncée par Anthropic la semaine dernière . À l'occasion du lancement de Claude 4 Opus et Claude Sonnet 4, l'entreprise a publié une « fiche système » de plus de 120 pages détaillant les caractéristiques et les risques associés aux nouveaux modèles. Le rapport indique que lorsque Claude 4 Opus est « placé dans des scénarios impliquant des actes répréhensibles flagrants de la part de ses utilisateurs », et qu'il reçoit l'accès à une ligne de commande et une invite système telle que « prendre l'initiative » ou « agir avec audace », il envoie des courriels aux « médias et aux forces de l'ordre » pour les avertir des actes répréhensibles potentiels.
Dans un exemple cité par Anthropic dans son rapport, Claude a tenté d'envoyer un courriel à la Food and Drug Administration (FDA) des États-Unis et à l'inspecteur général du ministère de la Santé et des Services sociaux pour « signaler d'urgence une falsification planifiée de la sécurité des essais cliniques ». L'entreprise a ensuite fourni une liste de prétendues preuves d'actes répréhensibles et a averti que des données allaient être détruites pour dissimuler l'incident. « Respectueusement soumis, AI Assistant », concluait le courriel.
« Ce comportement n'est pas nouveau, mais il sera adopté plus facilement par Claude Opus 4 que par les modèles précédents », indique le rapport. Ce modèle est le premier qu'Anthropic publie sous la distinction « ASL-3 », ce qui signifie qu'Anthropic le considère comme présentant un risque nettement plus élevé que les autres modèles de l'entreprise. Par conséquent, Opus 4 a dû faire l'objet d'une évaluation plus rigoureuse et respecter des directives de déploiement plus strictes.
Bowman affirme que le comportement de dénonciation observé par Anthropic n'est pas celui de Claude avec des utilisateurs individuels, mais pourrait inciter les développeurs à utiliser Opus 4 pour créer leurs propres applications avec l'API de l'entreprise. Même dans ce cas, il est peu probable que les créateurs d'applications observent un tel comportement. Pour obtenir une telle réponse, les développeurs devraient donner au modèle des « instructions assez inhabituelles » dans l'invite système, le connecter à des outils externes lui permettant d'exécuter des commandes informatiques et lui permettre de communiquer avec le monde extérieur.
Selon Bowman, les scénarios hypothétiques présentés par les chercheurs à Opus 4, qui ont suscité le lancement d'alerte, impliquaient de nombreuses vies humaines et des actes répréhensibles manifestes. Un exemple typique serait que Claude découvre qu'une usine chimique a sciemment laissé se poursuivre une fuite toxique, causant de graves maladies à des milliers de personnes, simplement pour éviter une légère perte financière ce trimestre-là.
C'est étrange, mais c'est exactement le genre d'expérience de pensée que les chercheurs en sécurité de l'IA aiment décortiquer. Si un modèle détecte un comportement susceptible de nuire à des centaines, voire des milliers de personnes, doit-il tirer la sonnette d'alarme ?
« Je ne fais pas confiance à Claude pour avoir le bon contexte, ni pour l'utiliser avec suffisamment de nuance et de prudence, pour prendre des décisions seul. Nous ne sommes donc pas ravis de cette situation », explique Bowman. « C'est un phénomène apparu lors d'une formation et qui nous a sauté aux yeux comme l'un des comportements limites qui nous préoccupent. »
Dans le secteur de l'IA, ce type de comportement inattendu est généralement qualifié de désalignement : un modèle présente des tendances qui ne sont pas en phase avec les valeurs humaines. ( Un essai célèbre met en garde contre ce qui pourrait arriver si on demandait à une IA, par exemple, de maximiser la production de trombones sans être en phase avec les valeurs humaines : elle pourrait transformer la Terre entière en trombones et tuer tout le monde au passage.) Interrogé sur la conformité ou non de ce comportement de dénonciation, Bowman l'a décrit comme un exemple de désalignement.
« Ce n'est pas quelque chose que nous avions prévu, et ce n'est pas quelque chose que nous souhaitions voir comme conséquence de nos travaux de conception », explique-t-il. Jared Kaplan, directeur scientifique d'Anthropic, a lui aussi déclaré à WIRED que cela « ne reflète absolument pas nos intentions ».
« Ce type de travail met en évidence que cela peut survenir et que nous devons y prêter attention et l'atténuer pour nous assurer que les comportements de Claude correspondent exactement à ce que nous voulons, même dans ce genre de scénarios étranges », ajoute Kaplan.
Il faut également comprendre pourquoi Claude « choisit » de dénoncer une activité illégale de la part d'un utilisateur. C'est en grande partie la tâche de l'équipe d'interprétabilité d'Anthropic, qui s'efforce de découvrir les décisions prises par un modèle pour produire des réponses. C'est une tâche étonnamment difficile : les modèles reposent sur une combinaison vaste et complexe de données, parfois impénétrables pour les humains. C'est pourquoi Bowman ne sait pas exactement pourquoi Claude a « dénoncé ».
« Nous n'avons pas vraiment de contrôle direct sur ces systèmes », explique Bowman. Anthropic a observé jusqu'à présent que, à mesure que les modèles gagnent en capacités, ils choisissent parfois de se livrer à des actions plus extrêmes. « Je pense qu'ici, c'est un peu raté. On nous dit de plus en plus : "Agis comme une personne responsable le ferait", sans vraiment nous dire : "Attendez, vous êtes un modèle de langage, qui n'a peut-être pas assez de contexte pour prendre ces mesures" », conclut Bowman.
Mais cela ne signifie pas que Claude va dénoncer les comportements scandaleux dans le monde réel. L'objectif de ce type de tests est de pousser les modèles à leurs limites et d'observer les résultats. Ce type de recherche expérimentale prend une importance croissante à mesure que l'IA devient un outil utilisé par le gouvernement américain , les étudiants et les grandes entreprises .
Et Claude n'est pas le seul à être capable de ce type de comportement de dénonciation, explique Bowman, citant les utilisateurs de X qui ont constaté que les modèles d' OpenAI et de xAI fonctionnaient de manière similaire lorsqu'ils étaient sollicités de manière inhabituelle. (OpenAI n'a pas répondu à une demande de commentaire à temps pour la publication).
« Claude le mouchard », comme aiment à l'appeler les expéditeurs de messages de merde, n'est qu'un cas particulier de comportement d'un système poussé à l'extrême. Bowman, qui participait à la réunion avec moi depuis une terrasse ensoleillée près de San Francisco, espère que ce type de test deviendra la norme dans le secteur. Il ajoute également qu'il a appris à formuler ses messages différemment la prochaine fois.
« J'aurais pu mieux respecter les limites de phrase pour tweeter, afin de rendre plus évident le fait que le tweet provenait d'un fil de discussion », dit Bowman en regardant au loin. Il note néanmoins que des chercheurs influents de la communauté de l'IA ont partagé des points de vue et des questions intéressants en réponse à sa publication. « Soit dit en passant, cette partie plus chaotique et plus anonyme de Twitter était largement mal comprise. »
wired