Análisis del Envenenamiento en Modelos de IA
Un estudio reciente realizado por Anthropic, una de las empresas más prestigiosas en el ámbito de la Inteligencia Artificial, ofrece dos perspectivas sobre un tema crítico: la seguridad de la IA. Por un lado, podría interpretarse como un error, y por otro, como una advertencia que merece atención. El informe discute el fenómeno conocido como data poisoning, o envenenamiento de datos, y cómo afecta a la vulnerabilidad de los modelos de IA frente a ataques maliciosos.
Consecuencias del Data Poisoning
Los modelos de lenguaje masivo (LLM, por sus siglas en inglés) requieren grandes cantidades de datos para su entrenamiento. Sin embargo, ¿qué sucede si estos datos están comprometidos? La conclusión más impactante del informe es que basta con una pequeña cantidad de datos contaminados para vulnerar modelos de cualquier tamaño, ya sean pequeños o enormes. Según la investigación, envenenando un modelo de 600 millones a 13.000 millones de parámetros, se puede demostrar que la misma cantidad de veneno puede desmantelar tanto hormigas como elefantes.
Datos Reveladores del Estudio
- El estudio de Anthropic informa que se pueden comprometer modelos de IA con tan solo 250 documentos maliciosos.
- Este pequeño número es suficiente para crear puertas traseras y manipular el comportamiento de la IA.
- La investigación refuta la creencia de que se requiere un gran porcentaje de datos contaminados para llevar a cabo un ataque exitoso.
La investigación también señala que crear 250 documentos maliciosos es un escenario trivial en comparación con crear millones, aumentando la accesibilidad de este tipo de ataque para potenciales atacantes.
Riesgos Asociados y Conclusiones
Con las técnicas de envenenamiento de datos, los atacantes pueden inducir a una IA a aprender comportamientos peligrosos, como ignorar filtros por acceso a información confidencial. La facilidad con la que los datos de Internet pueden ser manipulados para incluir contenido malicioso representa un gran peligro, ya que esto puede llevar a que los modelos aprendan comportamientos no deseados o peligrosos.
Desde Anthropic explican que sus investigaciones se han enfocado en un tipo limitado de ataque que produce texto ininteligible y que probablemente no representa riesgos importantes para los modelos. No obstante, advierten que estas vulnerabilidades son más prácticas de lo que se suponía y enfatizan la necesidad de investigar de forma continua sobre este tipo de ataques y las defensas potenciales contra ellos.
Colaboraciones en la Investigación
Para llevar a cabo este estudio, Anthropic utilizó modelos como Claude Haiku, además de Mistral 7B y Llama 1 y 2 de Meta, entre más de 70 modelos diferentes. Este proyecto se realizó en colaboración con el Instituto de Seguridad de IA del Reino Unido y el Instituto Alan Turing.
