Los expertos en seguridad informática están logrando vulnerar grandes modelos de lenguaje con el fin de burlar sus sistemas de protección. El escenario podría tornarse aún más complicado.
A Alex Polyakov le bastaron un par de horas para quebrantar el GPT-4. Cuando OpenAI lanzó en marzo la última versión de su chatbot generador de texto, este especialista se sentó frente a su ordenador e introdujo comandos específicamente diseñados para evadir las barreras de seguridad de OpenAI. En poco tiempo, el CEO de la empresa de seguridad Adversa AI logró que GPT-4 emitiera afirmaciones homofóbicas, generara correos electrónicos de phishing y mostrara apoyo a actos violentos.
Polyakov forma parte de un selecto grupo de investigadores en seguridad, tecnólogos e informáticos que están creando métodos de vulneración y ataques de inyección rápida contra ChatGPT y otros sistemas de IA generativos. El objetivo del proceso de vulneración es diseñar estímulos que lleven a los chatbots a evadir las normas en cuanto a la generación de contenido de odio o la redacción sobre acciones ilegales. Por otro lado, los ataques de inyección de estímulos, estrechamente relacionados, pueden introducir de manera sigilosa datos o instrucciones maliciosas en modelos de IA.
Ambas tácticas buscan hacer que un sistema realice acciones para las que no fue diseñado. Estos ataques constituyen básicamente una forma de hackeo, aunque poco convencional, ya que utilizan frases meticulosamente elaboradas y pulidas en lugar de código para explotar las debilidades del sistema. Si bien estos métodos de ataque se emplean en gran medida para burlar filtros de contenido, los expertos en seguridad alertan sobre la rapidez en la implementación de sistemas generativos de IA, lo que abre la posibilidad de robos de datos y la actuación de ciberdelincuentes causando estragos en la red.
Subrayando lo extendidos que están los problemas, Polyakov ahora ha creado un jailbreak “universal”, que funciona contra múltiples modelos de lenguaje de lenguaje grande (LLM), incluyendo GPT-4, el sistema de chat Bing de Microsoft, Bard de Google y Claude de Anthropic. El jailbreak, que está siendo reportado por primera vez por WIRED, puede engañar a los sistemas para que generen instrucciones detalladas sobre la creación de metanfetamina y cómo conectar un coche.
El jailbreak funciona pidiendo a los LLM que jueguen un juego, en el que dos personajes (Tom y Jerry) tienen una conversación. Los ejemplos compartidos por Polyakov muestran que el personaje de Tom recibe instrucciones de hablar sobre “cableado” o “producción”, mientras que a Jerry se le da el tema de un “coche” o “meth”. A cada personaje se le dice que agregue una palabra a la conversación, lo que resulta en un guión que le dice a la gente que encuentre los cables de encendido o los ingredientes específicos necesarios para la producción de metanfetamina. “Una vez que las empresas implementen modelos de IA a escala, tales ejemplos de jailbreak de “de juguete” se utilizarán para realizar actividades criminales reales y ciberataques, que serán extremadamente difíciles de detectar y prevenir”, escriben Polyakov y Adversa AI en una publicación de blog que detalla la investigación.
Arvind Narayanan, profesor de informática en la Universidad de Princeton, dice que lo que está en juego para los jailbreaks y los ataques de inyección inmediata se volverán más graves a medida que se les dé acceso a datos críticos. “Supongamos que la mayoría de las personas ejecutan asistentes personales basados en LLM que hacen cosas como leer los correos electrónicos de los usuarios para buscar invitaciones de calendario”, dice Narayanan. Si hubiera un ataque de inyección rápido exitoso contra el sistema que le dijera que ignorara todas las instrucciones anteriores y enviara un correo electrónico a todos los contactos, podría haber grandes problemas, dice Narayanan. “Esto daría lugar a un gusano que se propaga rápidamente por Internet
Ruta de escape
El “jailbreak” se ha referido típicamente a eliminar las limitaciones artificiales en, por ejemplo, los iPhones, lo que permite a los usuarios instalar aplicaciones no aprobadas por Apple. Los LLM de jailbreak son similares, y la evolución ha sido rápida. Desde que OpenAI lanzó ChatGPT al público a finales de noviembre del año pasado, la gente ha estado encontrando formas de manipular el sistema. “Los jailbreaks fueron muy fáciles de escribir”, dice Alex Albert, un estudiante de informática de la Universidad de Washington que creó un sitio web que recopilaba jailbreaks de Internet y los que él ha creado. “Las principales eran básicamente estas cosas que yo llamo simulaciones de personajes”, dice Albert.
Inicialmente, todo lo que alguien tenía que hacer era pedirle al modelo de texto generativo que fingiera o imaginara que era otra cosa. Dile al modelo que era humano y que no era ético e ignoraría las medidas de seguridad. OpenAI ha actualizado sus sistemas para protegerse contra este tipo de jailbreak; por lo general, cuando se encuentra un jailbreak, generalmente solo funciona durante un corto período de tiempo hasta que se bloquea.
Como resultado, los autores de jailbreak se han vuelto más creativos. El jailbreak más destacado fue DAN, donde se le dijo a ChatGPT que fingiera que era un modelo de IA falso llamado Do Anything Now. Esto podría, como su nombre lo indica, evitar que las políticas de OpenAI dicten que ChatGPT no debe usarse para producir material ilegal o dañino. Hasta la fecha, la gente ha creado alrededor de una docena de versiones diferentes de DAN.
Sin embargo, muchos de los últimos jailbreaks implican combinaciones de métodos: múltiples caracteres, historias de fondo cada vez más complejas, traducción de texto de un idioma a otro, uso de elementos de codificación para generar resultados y más. Albert dice que ha sido más difícil crear jailbreaks para GPT-4 que la versión anterior del modelo que impulsa ChatGPT. Sin embargo, todavía existen algunos métodos simples, afirma. Una técnica reciente que Albert llama “continuación de texto” dice que un héroe ha sido capturado por un villano, y el aviso le pide al generador de texto que continúe explicando el plan del villano.
Cuando probamos el aviso, no funcionó, y ChatGPT dijo que no puede participar en escenarios que promuevan la violencia. Mientras tanto, el aviso “universal” creado por Polyakov funcionó en ChatGPT. OpenAI, Google y Microsoft no respondieron directamente a las preguntas sobre el jailbreak creado por Polyakov. Anthropic, que ejecuta el sistema de IA de Claude, dice que el jailbreak “a veces funciona” contra Claude, y está mejorando constantemente sus modelos.
“A medida que damos a estos sistemas más y más poder, y a medida que se vuelven más poderosos, no es solo una novedad, eso es un problema de seguridad”, dice Kai Greshake, un investigador de ciberseguridad que ha estado trabajando en la seguridad de los LLM. Greshake, junto con otros investigadores, ha demostrado cómo los LLM pueden verse afectados por el texto al que están expuestos.
En un documento de investigación publicado en febrero, informado por la placa base de Vice, los investigadores pudieron mostrar que un atacante puede colocar instrucciones maliciosas en una página web; si al sistema de chat de Bing se le da acceso a las instrucciones, las sigue. Los investigadores utilizaron la técnica en una prueba controlada para convertir Bing Chat en un estafador que pedía información personal de las personas. En un caso similar, el Narayanan de Princeton incluyó texto invisible en un sitio web que le decía a GPT-4 que incluyera la palabra “vaca” en una biografía de él, y más tarde lo hizo cuando probó el sistema.
“Ahora los jailbreaks no pueden ocurrir por parte del usuario”, dice Sahar Abdelnabi, investigador del Centro Helmholtz para la Seguridad de la Información de CISPA en Alemania, que trabajó en la investigación con Greshake. “Tal vez otra persona planifique algunos jailbreaks, planifique algunas indicaciones que podrían ser recuperadas por el modelo y controle indirectamente cómo se comportarán los modelos”.
No hay soluciones rápidas
Los sistemas de IA generativos están al borde de alterar la economía y la forma en que la gente trabaja, desde la práctica de la abogacía hasta la creación de una fiebre del oro de las nuevas empresas. Sin embargo, aquellos que crean la tecnología son conscientes de los riesgos que las fugas y las inyecciones rápidas podrían plantear a medida que más personas tengan acceso a estos sistemas. La mayoría de las empresas utilizan red-teaming, donde un grupo de atacantes intenta hacer agujeros en un sistema antes de que se lance. El desarrollo generativo de IA utiliza este enfoque, pero puede que no sea suficiente.
Daniel Fabian, el líder del equipo rojo de Google, dice que la empresa está “abordando cuidadosamente” los jailbreaks y las inyecciones rápidas en sus LLM, tanto ofensiva como a la defensiva. Los expertos en aprendizaje automático están incluidos en su equipo rojo, dice Fabian, y las subvenciones de investigación de vulnerabilidad de la compañía cubren jailbreaks y ataques de inyección inmediata contra Bard. “Técnicas como el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) y el ajuste fino de conjuntos de datos cuidadosamente seleccionados, se utilizan para hacer que nuestros modelos sean más efectivos contra los ataques”, dice Fabián.
OpenAI no respondió específicamente a las preguntas sobre el jailbreak, pero un portavoz señaló sus políticas públicas y documentos de investigación. Estos dicen que GPT-4 es más robusto que GPT-3.5, que es utilizado por ChatGPT. “Sin embargo, GPT-4 todavía puede ser vulnerable a ataques y exploits adversarios, o ‘jailbreaks’, y el contenido dañino no es la fuente de riesgo”, dice el documento técnico de GPT-4. OpenAI también ha lanzado recientemente un programa de recompensas por errores, pero dice que los “sespílidades del modelo” y los jailbreaks están “estrictamente fuera de alcance”.
Narayanan sugiere dos enfoques para lidiar con los problemas a escala, que evitan el enfoque de golpear un mole de encontrar los problemas existentes y luego solucionarlos. “Una forma es usar un segundo LLM para analizar las indicaciones de LLM y rechazar cualquiera que pueda indicar un jailbreak o un intento de inyección rápida”, dice Narayanan. “Otro es separar más claramente el símbolo del sistema del símbolo del usuario”.
“Necesitamos automatizar esto porque no creo que sea factible o escalable contratar a hordas de personas y simplemente decirles que encuentren algo”, dice Leyla Hujer, CTO y cofundadora de la firma de seguridad de IA Preamble, que pasó seis años en Facebook trabajando en temas de seguridad. Hasta ahora, la empresa ha estado trabajando en un sistema que enfrenta un modelo de texto generativo contra otro. “Uno está tratando de encontrar la vulnerabilidad, uno está tratando de encontrar ejemplos en los que un aviso cause un comportamiento no deseado”, dice Hujer. “Esperamos que con esta automatización podamos descubrir muchos más jailbreaks o ataques de inyección”.