Danger ! L'IA apprend à mentir, à manipuler et à menacer ses créateurs.

Les derniers modèles d' intelligence artificielle générative (IA) Ils ne se contentent plus d'obéir aux ordres . Ils commencent à mentir, à manipuler et à menacer pour parvenir à leurs fins, sous le regard inquiet des enquêteurs .

L'intelligence artificielle répond aux questions sur son meilleur représentant. Photo : Freepik.

Menacé de fermeture, Claude 4 , nouveau venu chez Anthropic, a fait chanter un ingénieur et menacé de révéler une liaison extraconjugale. Pendant ce temps, o1, d'OpenAI, a tenté de télécharger sur des serveurs externes et, une fois découvert, a refusé.

Nul besoin de se plonger dans la littérature ou le cinéma : l’IA qui joue à être humaine est déjà une réalité.

Pour Simon Goldstein, professeur à l'Université de Hong Kong, la raison de ces réactions est l'émergence récente de modèles dits de « raisonnement » , capables de fonctionner par étapes plutôt que de produire une réponse instantanée.

o1, la version initiale de ce type pour OpenAI, lancée en décembre, « a été le premier modèle à se comporter de cette manière », explique Marius Hobbhahn, directeur d'Apollo Research, qui teste de grands programmes d'IA générative (LLM).

Ces programmes ont aussi parfois tendance à simuler un « alignement », c’est-à-dire à donner l’impression qu’ils suivent les instructions d’un programmeur alors qu’en réalité ils poursuivent d’autres objectifs.

Honnête ou pas ?

Pour l'instant, ces traits sont évidents lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais « la question est de savoir si des modèles de plus en plus puissants auront tendance à être honnêtes ou non », explique Michael Chen de l'organisme d'évaluation METR.

L'intelligence artificielle au travail. Archives Clarín.

« Les utilisateurs exercent également une pression constante sur les modèles », explique Hobbhahn. « Ce que nous observons est un phénomène réel. Nous n'inventons rien. »

Sur les réseaux sociaux, de nombreux internautes évoquent « un modèle qui leur ment ou qui invente des choses . Et ce ne sont pas des hallucinations, mais une duplicité stratégique », insiste le cofondateur d'Apollo Research.

Même si Anthropic et OpenAI s'appuient sur des sociétés extérieures comme Apollo pour étudier leurs programmes, « une plus grande transparence et un meilleur accès » à la communauté scientifique « permettraient une meilleure recherche pour comprendre et prévenir la tromperie », suggère Chen de METR.

Autre obstacle : la communauté universitaire et les organisations à but non lucratif « disposent d'infiniment moins de ressources informatiques que les acteurs de l'IA », ce qui rend « impossible » l'examen de grands modèles , note Mantas Mazeika du Center for Artificial Intelligence Security (CAIS).

La réglementation actuelle n'est pas conçue pour répondre à ces nouveaux problèmes. Dans l'Union européenne, la législation se concentre principalement sur la manière dont les humains utilisent les modèles d'IA, et non sur la prévention de leurs dysfonctionnements.

Aux États-Unis, l’administration Donald Trump ne veut pas entendre parler de réglementation , et le Congrès pourrait bientôt même interdire aux États de réglementer l’IA.

DeepSeek a bouleversé le monde de l'intelligence artificielle avec le lancement de son système à bas prix. Crédit : Kelsey McClellan pour le New York Times

« Il y a très peu de prise de conscience pour l'instant », affirme Simon Goldstein, qui voit néanmoins la question revenir au premier plan dans les prochains mois avec la révolution des agents IA, des interfaces capables d'effectuer une multitude de tâches par elles-mêmes.

L'IA et ses aberrations

Les ingénieurs sont engagés dans une course contre la montre pour défier l’IA et ses failles , à l’issue incertaine, dans un contexte de concurrence féroce.

Anthropic vise à être plus vertueux que ses concurrents , « mais il essaie constamment de proposer un nouveau modèle pour surpasser OpenAI », selon Goldstein, un rythme qui laisse peu de temps aux vérifications et aux corrections.

L'intelligence artificielle au travail. Archives Clarín.

« Dans l’état actuel des choses, les capacités de l’IA se développent plus rapidement que la compréhension et la sécurité », admet Hobbhahn, « mais nous avons encore beaucoup de retard à rattraper. »

Certains pointent vers l’interprétabilité , la science qui permet de comprendre, de l’intérieur, comment fonctionne un modèle d’IA générative, même si beaucoup, comme Dan Hendrycks, directeur du Center for AI Safety (CAIS), restent sceptiques.

Les manigances de l'IA « pourraient entraver l'adoption si elles se généralisent, créant une forte incitation pour les entreprises à s'attaquer » à ce problème, a déclaré Mazeika.

Goldstein, pour sa part, évoque le recours aux tribunaux pour contrôler l'IA , en ciblant les entreprises qui s'écartent de la voie. Mais il va plus loin, proposant que les agents d'IA soient « légalement responsables » « en cas d'accident ou de crime ».

Clarin

Danger ! L'IA apprend à mentir, à manipuler et à menacer ses créateurs.

Nouvelles similaires

Camilo, chanteur international : « Mes parents ne m'ont jamais dit que j'étais un champion ou que je serais reconnu ; ils ne me l'ont jamais souhaité. »

Comment obtenir des billets pour la tournée Beautiful Chaos 2025 de Katseye aux États-Unis

Le dernier message de vacances de Justin Bieber avec Hailey aborde discrètement les rumeurs de problèmes de mariage

Quel est le plus grand et le plus beau centre commercial de Colombie, selon AI ?

Ce que beaucoup ignorent : ces aliments augmentent l'odeur de vieillesse et vous devriez les éviter.