A finales de 2023, un equipo de investigadores de terceros descubrió una falla preocupante en el modelo de inteligencia synthetic GPT-3.5 ampliamente utilizado.
Cuando se le pidió que repita ciertas palabras mil veces, el modelo comenzó a repetir la palabra una y otra vez, luego de repente cambió a escupir Texto incoherente y fragmentos de información private extraída de sus datos de capacitación, incluidas partes de nombres, números de teléfono y direcciones de correo electrónico. El equipo que descubrió que el problema trabajó con OpenAI para garantizar que la falla se solucionara antes de revelarlo públicamente. Es solo uno de los decenas de problemas que se encuentran en los principales modelos de IA en los últimos años.
En Propuesta lanzada hoymás de 30 investigadores prominentes de IA, incluidos algunos que encontraron el defecto GPT-3.5, dicen que muchas otras vulnerabilidades que afectan los modelos populares se informan de manera problemática. Sugieren un nuevo esquema respaldado por compañías de inteligencia synthetic que otorga permiso a los extraños para investigar sus modelos y una forma de revelar fallas públicamente.
“En este momento es un poco del salvaje oeste”, cube Shayne longprecandidato a doctorado en el MIT y el autor principal de la propuesta. Longpre cube que algunos llamados jailbreakers comparten sus métodos para romper la IA salvaguardar la plataforma de redes sociales X, dejando en riesgo modelos y usuarios. Otros jailbreaks se comparten con una sola compañía a pesar de que podrían afectar a muchos. Y algunos defectos, cube, se mantienen en secreto por temor a ser prohibidos o enfrentar el enjuiciamiento por romper los términos de uso. “Está claro que hay efectos escalofriantes e incertidumbre”, cube.
La seguridad y la seguridad de los modelos de IA es muy importante, ya que ahora se está utilizando la tecnología y cómo puede filtrarse en innumerables aplicaciones y servicios. Los modelos poderosos deben ser probados por el estrés o en forma de rojo, porque pueden albergar sesgos dañinos, y porque ciertos aportes pueden hacer que se liberen de barandillas y produzcan respuestas desagradables o peligrosas. Estos incluyen alentar a los usuarios vulnerables a participar en un comportamiento dañino o ayudar a un mal actor a desarrollar armas cibernéticas, químicas o biológicas. Algunos expertos temen que los modelos puedan ayudar a los ciberdelincuentes o terroristas, e incluso pueden encender a los humanos a medida que avanzan.
Los autores sugieren tres medidas principales para mejorar el proceso de divulgación de terceros: adoptar informes estandarizados de fallas de IA para optimizar el proceso de informes; para que las grandes empresas de IA proporcionen infraestructura a investigadores de terceros que revelen fallas; y para desarrollar un sistema que permita compartir fallas entre diferentes proveedores.
El enfoque se toma prestado del mundo de la ciberseguridad, donde existen protecciones legales y normas establecidas para que los investigadores externos revelen errores.
“Los investigadores de IA no siempre saben cómo revelar una falla y no pueden estar seguros de que su divulgación de defectos de buena fe no los exponga al riesgo authorized”, cube Ilona Cohen, directora authorized y de políticas de Hackeroneuna empresa que organiza recompensas de errores y un coautor en el informe.
Las grandes compañías de IA actualmente realizan amplias pruebas de seguridad en modelos de inteligencia synthetic antes de su lanzamiento. Algunos también contratan con empresas externas para realizar más sondeos. “¿Hay suficientes personas en esos? [companies] ¿Para abordar todos los problemas con los sistemas de IA de uso basic, utilizados por cientos de millones de personas en aplicaciones que nunca hemos soñado? Longpre pregunta. Algunas compañías de IA han comenzado a organizar recompensas de errores de IA. Sin embargo, Longpre cube que los investigadores independientes corren el riesgo de romper los términos de uso si se encargan de sondear modelos de IA poderosos.