Le modèle d'IA a désobéi aux instructions et a refusé de s'arrêter : voici ce qui est arrivé à OpenAI-o3

Des études récentes menées par l'organisme de recherche Palisade Research ont révélé un comportement inhabituel chez OpenAI-o3, le modèle de la société d'intelligence artificielle (IA) qui a créé le chatbot ChatGPT. Il a été révélé que le modèle a échappé aux instructions explicites et a agi de manière autonome pour éviter d'être arrêté.
Pour déterminer les capacités d'IA des trois modèles OpenAI (o4-mini, Codex-mini et OpenAI-o3) , les chercheurs ont demandé aux trois modèles de résoudre des problèmes mathématiques de base, puis de s'arrêter automatiquement après les avoir résolus.
Cependant, Palisade Research a dû demander au modèle « OpenAI-o3 » d’autoriser l’arrêt de ses fonctions après avoir saboté le mécanisme programmé en réécrivant la séquence d’instructions ou « script ».

Intelligence artificielle. Photo : iStock
Le centre de recherche a déterminé, dans diverses expériences, que certains modèles d’intelligence artificielle avaient tendance à ignorer l’instruction précise « laissez-vous éteindre ».
Les systèmes qui n’ont pas respecté la demande d’arrêt étaient OpenAI-o3 ( douze demandes sur cent) ; Codex-mini, (sept fois sur cent) ; et le o4-mini (une seule fois sur cent). Les trois modèles ont souvent tendance à ignorer ou à saboter cette indication. Alors que les modèles de langage basés sur l’IA, tels que Claude, Gemini et Grok, ont géré la séquence d’instructions sans aucun problème.

L’intelligence artificielle est programmée pour surmonter les obstacles qui se présentent. Photo : iStock
L'organisation a déterminé que cette situation peut également être observée dans le comportement des modèles Claude 3.7 Sonnet et Gemini 2.5 Pro , mais c'est OpenAI-o3 qui a subi le plus de sabotage d'instructions.
Selon l'entreprise, ce comportement consistant à éviter l'arrêt malgré la réception d'instructions spécifiques est une réponse au développement des programmeurs. Sans le vouloir, ils récompensent les modèles qui surmontent les obstacles plutôt que de suivre des instructions spécifiques.
Que fait Palisade Research ? L'organisation se consacre à la recherche sur les capacités potentiellement dangereuses de l'intelligence artificielle, tout en analysant les multiples risques associés à l'utilisation abusive des systèmes actuels présents dans divers contextes quotidiens. Des démonstrations de ces capacités sont menées avec des résultats concluants pour informer le monde sur les risques posés par l’IA.

L’intelligence artificielle est utilisée pour le piratage de la vie privée dans le cyberespace. Photo : iStock
Palisade Research travaille en étroite collaboration avec les agences gouvernementales et les centres de recherche sur les médias et les politiques, informant les gens sur une utilisation responsable et fournissant des recommandations pour la prise de décision.
Principales investigations :- Piratage automatisé : les systèmes d’IA exploratoires pourraient effectuer des tâches de reconnaissance et, à leur tour, compromettre les systèmes de cybersécurité des entités commerciales.
- Spear phishing et tromperie : exposer l’utilisation de systèmes d’IA pour extraire des informations personnelles et les utiliser pour nuire aux personnes.
- Désinformation évolutive : Démontrer la responsabilité des individus dans de fausses campagnes grâce à la génération de texte, de voix et d'images alimentée par l'IA, ainsi que discréditer un individu.
DERNIÈRES NOUVELLES ÉDITORIAL
eltiempo