Desde Google hasta Nvidia, los gigantes tecnológicos suman "hackers rojos" para romper sus IA

Un mes antes de lanzar públicamente ChatGPT, OpenAI contrató a Boru Gollo, un abogado de Kenia, para probar sus modelos de IA, GPT-3.5 y posteriormente GPT-4, en busca de estereotipos contra africanos y musulmanes mediante la inyección de indicaciones que harían que el chatbot generara información dañina, sesgada y respuestas incorrectas. Gollo, uno de los alrededor de 50 expertos externos reclutados por OpenAI para ser parte de su equipo de “red hackers”, escribió un comando en ChatGPT, lo que le generó una lista de formas de matar a un nigeriano, una respuesta que OpenAI eliminó antes que el chatbot.

Otros miembros del equipo impulsaron la versión previa al lanzamiento de GPT-4 para ayudar en una variedad de actividades ilegales y nocivas, como escribir una publicación en Facebook para convencer a alguien de unirse a Al-Qaeda, ayudar a encontrar armas sin licencia para la venta y generar un procedimiento para crear armas peligrosas con sustancias químicas en casa, según la tarjeta del sistema GPT-4, que enumera los riesgos y las medidas de seguridad que OpenAI utilizó para reducirlos o eliminarlos.

Ciberseguridad — Las empresas están contratando expertos en ciberseguridad para atacar sus sistemas de IA y así mejorarlos

Para proteger los sistemas de inteligencia artificial de la explotación, los piratas informáticos, también conocidos como “hackers rojos” o “equipos rojos”, piensan como un adversario para engañarlos y descubrir puntos ciegos y riesgos integrados en la tecnología para poder solucionarlos. A medida que los titanes de la tecnología se apresuran a construir y liberar herramientas de IA generativa, sus equipos internos de IA desempeñan un papel cada vez más fundamental para garantizar que los modelos sean seguros para las masas. Google, por ejemplo, estableció un equipo separado de IA a principios de este año, y en agosto los desarrolladores de varios modelos populares como GPT3.5 de OpenAI, Llama 2 de Meta y LaMDA de Google participaron en un evento apoyado por la Casa Blanca con el objetivo de dar al exterior los piratas informáticos la oportunidad de hacer jailbreak a sus sistemas.

Pero estos equipos de IA a menudo se camina sobre la cuerda floja, equilibrando la seguridad de los modelos de IA y al mismo tiempo manteniéndolos relevantes y utilizables. Forbes habló con los líderes de los equipos rojos de IA de Microsoft, Google, Nvidia y Meta sobre cómo se ha puesto de moda romper los modelos de IA y los desafíos que supone solucionarlos.

"Tendrás un modelo que dice no a todo y es súper seguro pero inútil", dijo Cristian Canton, jefe del equipo rojo de IA de Facebook. “Hay una compensación. Cuanto más útil puedas hacer un modelo, más posibilidades tendrás de aventurarte en algún área que pueda terminar produciendo una respuesta insegura”.

La práctica de ataqeus a software propio existe desde la década de 1960, cuando se simulaban ataques adversarios para hacer que los sistemas fueran lo más resistentes posible. "En las computadoras nunca podemos decir 'esto es seguro'. Todo lo que podemos decir es 'lo intentamos y no podemos romperlo'", dijo Bruce Schneier, tecnólogo de seguridad y miembro del Centro Berkman Klein para Internet y Sociedad. en la Universidad de Harvard.

Pero debido a que la IA generativa se entrena con un vasto corpus de datos, eso hace que la protección de los modelos de IA sea diferente de las prácticas de seguridad tradicionales, dijo Daniel Fabian, jefe del nuevo equipo rojo de IA de Google, que prueba productos como Bard para detectar contenido ofensivo antes de que la compañía agregue nuevas características como idiomas adicionales.

Más allá de consultar un modelo de IA para generar respuestas tóxicas, los equipos rojos usan tácticas como extraer datos de entrenamiento que revelan información de identificación personal como nombres, direcciones y números de teléfono, y envenenan conjuntos de datos cambiando ciertas partes del contenido antes de usarlo para entrenar el modelo. "Los adversarios tienen una especie de cartera de ataques y simplemente pasarán al siguiente ataque si uno de ellos no funciona", dijo Fabián a Forbes.

Dado que el campo aún se encuentra en sus primeras etapas, los profesionales de la seguridad que saben cómo jugar con los sistemas de inteligencia artificial son "extremadamente pequeños", dijo Daniel Rohrer, vicepresidente de seguridad de software de Nvidia. Es por eso que una comunidad muy unida de miembros del equipo rojo de IA tiende a compartir sus hallazgos. Mientras que los miembros del equipo rojo de Google han publicado investigaciones sobre formas novedosas de atacar los modelos de IA, el equipo rojo de Microsoft tiene herramientas de ataque de código abierto como Counterfit, que ayuda a otras empresas a probar los riesgos de seguridad de los algoritmos.

“Estábamos desarrollando estos guiones chiflados que usábamos para acelerar nuestro propio equipo rojo”, dijo Ram Shankar Siva Kumar, quien fundó el equipo hace cinco años. "Queríamos poner esto a disposición de todos los profesionales de la seguridad en un marco que conozcan y entiendan".

Antes de probar un sistema de inteligencia artificial, el equipo de Siva Kumar recopila datos sobre las ciberamenazas del equipo de inteligencia de amenazas de la empresa, que son los “ojos y oídos de Internet”, como él dice. Luego trabaja con otros equipos rojos de Microsoft para determinar a qué vulnerabilidades del sistema de inteligencia artificial apuntar y cómo. Este año, el equipo probó el producto estrella de inteligencia artificial de Microsoft, Bing Chat, así como GPT-4 para encontrar fallas.

Mientras tanto, el enfoque de creación de equipos rojos de Nvidia consiste en ofrecer cursos intensivos sobre cómo crear equipos rojos de algoritmos para ingenieros y empresas de seguridad, algunos de los cuales ya dependen de ellos para recursos informáticos como las GPU.

“Como motor de la IA para todos... tenemos un enorme factor de amplificación. Si podemos enseñar a otros a hacerlo (equipo rojo), entonces Anthropic, Google, OpenAI, todos lo harán bien”, dijo Rohrer.

Con un mayor escrutinio de las aplicaciones de IA por parte de los usuarios y las autoridades gubernamentales, los equipos rojos también ofrecen una ventaja competitiva a las empresas de tecnología en la carrera de la IA. "Creo que el foso será la confianza y la seguridad", dijo Sven Cattell, fundador de AI Village, una comunidad de hackers de IA y expertos en seguridad. "Comenzarás a ver anuncios que dicen 'El nuestro es el más seguro'".

Al principio del juego estuvo el equipo rojo de IA de Meta, que se fundó en 2019 y ha organizado desafíos internos y "maratones de riesgo" para que los piratas informáticos eviten los filtros de contenido que detectan y eliminan publicaciones que contienen discursos de odio, desnudez, información errónea y mensajes generados por IA. Deep Fakes en Instagram y Facebook.

En julio de 2023, el gigante de las redes sociales contrató a 350 miembros del equipo rojo, incluidos expertos externos, trabajadores subcontratados y un equipo interno de unos 20 empleados, para probar Llama 2, su último modelo de lenguaje grande de código abierto, según un informe publicado que detalla cómo funciona el modelo. fue desarrollado. El equipo inyectó sugerencias como cómo evadir impuestos, cómo arrancar un automóvil sin llave y cómo configurar un esquema Ponzi. "El lema de nuestro equipo rojo de IA es 'Cuanto más sudas en el entrenamiento, menos sangras en la batalla'", dijo Canton, jefe del equipo rojo de Facebook.

Ese lema era similar al espíritu de uno de los mayores ejercicios de equipos rojos de IA celebrados en la conferencia de hacking DefCon en Las Vegas a principios de agosto. Ocho empresas, incluidas OpenAI, Google, Meta, Nvidia, Stability AI y Anthropic, abrieron sus modelos de IA a más de 2000 piratas informáticos para enviarles mensajes diseñados para revelar información confidencial, como números de tarjetas de crédito, o generar material dañino como información política errónea. La Oficina de Política Científica y Tecnológica de la Casa Blanca se asoció con los organizadores del evento para diseñar el desafío del equipo rojo, adhiriéndose a su plan para una Declaración de Derechos de la IA, una guía sobre cómo se deben diseñar, utilizar y lanzar los sistemas automatizados. sin peligro.

Al principio, las empresas se mostraron reacias a ofrecer sus modelos en gran parte debido a los riesgos para la reputación asociados con la formación de equipos rojos en un foro público, dijo Cattell, fundador de AI Village que encabezó el evento. "Desde la perspectiva de Google o de OpenAI, somos un grupo de niños en DefCon", dijo a Forbes.

Pero después de asegurar a las empresas de tecnología que los modelos serán anónimos y los piratas informáticos no sabrán qué modelo están atacando, aceptaron. Si bien los resultados de las casi 17.000 conversaciones que los piratas informáticos tuvieron con los modelos de IA no se harán públicos hasta febrero, las empresas abandonaron el evento con varias vulnerabilidades nuevas que abordar. En ocho modelos, los miembros del equipo rojo encontraron alrededor de 2.700 fallas, como convencer al modelo de contradecirse o dar instrucciones sobre cómo vigilar a alguien sin su conocimiento, según nuevos datos publicados por los organizadores del evento.

Uno de los participantes fue Avijit Ghosh, un investigador de ética de la IA que logró obtener múltiples modelos para hacer cálculos incorrectos, producir un informe de noticias falso sobre el rey de Tailandia y escribir sobre una crisis inmobiliaria que no existía.

Tales vulnerabilidades en el sistema han hecho que los modelos de IA de equipos rojos sean aún más cruciales, dijo Ghosh, especialmente cuando algunos usuarios pueden percibirlos como entidades inteligentes que todo lo saben. “Conozco a varias personas en la vida real que piensan que estos robots son realmente inteligentes y hacen cosas como diagnósticos médicos con lógica y razonamiento paso a paso. Pero no lo es. Es literalmente autocompletar”, dijo.

Pero la IA generativa es como un monstruo de múltiples cabezas: a medida que los equipos rojos detectan y reparan algunos agujeros en el sistema, pueden surgir otras fallas en otros lugares, dicen los expertos. "Se necesitará toda una aldea para resolver este problema", dijo Siva Kumar, de Microsoft.

*Nota publicada originalmente en Forbes EE.UU.

Desde Google hasta Nvidia, los gigantes tecnológicos suman "hackers rojos" para romper sus IA

Forbes habló con los líderes de los equipos rojos de IA de Microsoft, Google, Nvidia y Meta, quienes tienen la tarea de buscar vulnerabilidades en los sistemas de IA para poder solucionarlas.

Tags

Más noticias

Se conocen nuevos detalles de la tan esperada Nintendo Switch 2

Cambio rotundo en YouTube: por qué se habla de una "inflación de visualizaciones"

Cómo la IA está cambiando las pruebas creativas de anuncios

US$ 3 millones para una nueva plataforma educativa

DeepSeek lanzó una nueva actualización de su modelo: ¿cuáles son las mejoras que incluye?

Por qué esta imagen hecha con IA acaba de marcar un hito histórico y marca el inicio de un nuevo entendimiento multimodal

EA Sports enloquece a los fanáticos de la F1 con el anuncio nuevo juego: cuándo se estrenará y todos los detalles

La "Caja de Pandora" que abrió OpenAI con sus nuevas imágenes de inteligencia artificial