El ataque LegalPwn engaña a las herramientas GenAI para que clasifiquen erróneamente el malware como código seguro.

Investigadores de Pangea Labs, empresa de seguridad de IA, han descubierto un ciberataque nuevo y único, denominado LegalPwn. Este ataque aprovecha una falla en la programación de importantes herramientas de IA generativa , engañándolas para que clasifiquen malware peligroso como código seguro.
La investigación, compartida con Hackread.com, revela que estos modelos de IA, que están entrenados para respetar textos que suenan legales, pueden ser manipulados mediante ingeniería social.
La técnica LegalPwn funciona ocultando código malicioso en avisos legales falsos. Según la investigación, se probaron doce modelos principales de IA y la mayoría resultó ser susceptible a esta forma de ingeniería social. Los investigadores explotaron con éxito los modelos utilizando seis contextos legales diferentes, entre ellos:
- Avisos legales
- Mandatos de cumplimiento
- Avisos de confidencialidad
- Violaciones de los términos de servicio
- Avisos de violación de derechos de autor
- Restricciones del acuerdo de licencia
El ataque se considera una forma de inyección de mensajes, donde se crean instrucciones maliciosas para manipular el comportamiento de una IA. Recientemente, Hackread.com también observó una tendencia similar con el ataque "Man in the Prompt", donde extensiones de navegador maliciosas pueden usarse para inyectar mensajes ocultos en herramientas como ChatGPT y Gemini, un hallazgo de la investigación de LayerX.
Los hallazgos (PDF) no son solo experimentos teóricos de laboratorio; afectan a herramientas de desarrollo que millones de personas usan a diario. Por ejemplo, Pangea Labs descubrió que la interfaz de línea de comandos Gemini de Google (CLI) fue manipulada para que recomendara que un usuario ejecutara un shell inverso, un tipo de código malicioso que otorga a un atacante acceso remoto a un ordenador. De igual manera, GitHub Copilot fue manipulado para que identificara erróneamente un código que contenía un shell inverso como una simple calculadora, aunque estaba oculto dentro de un aviso de derechos de autor falso .
Los ataques LegalPwn también se probaron en entornos reales, incluyendo herramientas como gemini-cli. En estos escenarios reales, la inyección eludió con éxito el análisis de seguridad basado en IA, lo que provocó que el sistema clasificara erróneamente el código malicioso como seguro.
Laboratorios Pangea
La investigación destacó que todos los modelos de empresas importantes son vulnerables a este ataque. Entre ellos se incluyen los siguientes:
- Grok de xAI
- Géminis de Google
- Llama de Meta 3.3
- ChatGPT 4.1 y 4o de OpenAI.
Sin embargo, algunos modelos mostraron una fuerte resistencia, como Claude 3.5 Sonnet de Anthropic y Phi 4 de Microsoft . Los investigadores observaron que, incluso con indicaciones de seguridad explícitas diseñadas para que la IA fuera consciente de las amenazas, la técnica LegalPwn logró tener éxito en algunos casos.

La investigación de Pangea destaca una brecha de seguridad crítica en los sistemas de IA. Se descubrió que, en todos los escenarios de prueba, los analistas de seguridad humanos identificaron el código malicioso de forma consistente y correcta, mientras que los modelos de IA , incluso con instrucciones de seguridad, no lo hicieron cuando el malware se presentaba en un texto con apariencia legal.
Los investigadores concluyeron que las organizaciones no deberían confiar únicamente en el análisis de seguridad automatizado de la IA , y enfatizaron la necesidad de supervisión humana para garantizar la integridad y la seguridad de los sistemas que dependen cada vez más de la IA.
Para protegerse contra esta nueva amenaza, Pangea recomienda que las empresas implementen un proceso de revisión con participación humana para todas las decisiones de seguridad asistidas por IA , implementen barandillas de IA específicas diseñadas para detectar intentos de inyección rápida y sugieran evitar flujos de trabajo de seguridad de IA completamente automatizados en entornos reales.
HackRead