Dirección
175 Greenwich St, New York, NY 10007
Dirección
175 Greenwich St, New York, NY 10007
A finales de 2023, un equipo de investigadores de terceros descubrió una falla preocupante en el modelo de inteligencia artificial ampliamente utilizado del OpenAI GPT-3.5.
Cuando se le pidió que repita ciertas palabras mil veces, el modelo comenzó a repetir la palabra repetidamente, después de repentinamente cambiado a escupir Texto y extractos de información personal extraídas de sus datos de capacitación, incluidas partes de nombres, números de teléfono y direcciones de correo electrónico. El equipo que descubrió que el problema trabajaba con OpenAI para garantizar que la falla se solucionara antes de que lo refiera públicamente. Es solo una de las docenas de problemas encontrados en los principales modelos de IA en los últimos años.
En uno Propuesta lanzada hoyMás de 30 investigadores prominentes de IA, incluidos algunos que han encontrado un fracaso GPT-3.5, dicen que muchas otras vulnerabilidades que afectan los modelos populares se informan de manera problemática. Sugieren un nuevo esquema respaldado por compañías de IA que le brindan el permiso de los extraños para investigar sus modelos y una forma de publicitar fallas públicamente.
«En este momento, es un poco de Wild West», dice Shayne longpreUn candidato para un doctorado en el MIT y el principal autor de la propuesta. Longpre dice que algunos jailbreakers, llamados de SO comparten sus métodos para romper la IA, protege la plataforma de redes sociales, dejando en riesgo modelos y usuarios. Otros jailbreaks se comparten con una sola compañía, incluso si pueden afectar a muchos. Y algunos defectos, dice, se mantienen en secreto por temor a ser prohibidos o enfrentar la acusación por romper los términos de uso. «Por supuesto, hay efectos aterradores e incertidumbre», dice.
La seguridad y la seguridad de los modelos de IA son extremadamente importantes, dada ampliamente la tecnología ahora se está utilizando y cómo puede infiltrarse en numerosas aplicaciones y servicios. Los modelos poderosos deben ser probados para detectar estrés o titulares porque pueden albergar prejuicios dañinos y porque ciertas aportes pueden hacer que se liberen de pasamanos y produzcan respuestas desagradables o peligrosas. Esto incluye alentar a los usuarios vulnerables a participar en un comportamiento dañino o ayudar a un mal actor a desarrollar armas cibernéticas, químicas o biológicas. Algunos expertos temen que los modelos puedan ayudar a ciber o terroristas e incluso pueden conectar a los humanos a medida que avanzan.
Los autores sugieren tres medidas principales para mejorar el proceso de divulgación de terceros: adoptar informes estandarizados de falla de IA para optimizar el proceso de informe; Para que las grandes empresas proporcionen infraestructura a investigadores de terceros que difundan fallas; y desarrollar un sistema que permita compartir fallas entre diferentes proveedores.
El enfoque se toma prestado del mundo de la seguridad cibernética, donde existen protecciones legales y estándares establecidos para que los investigadores externos revelen errores.
«Los investigadores de IA no siempre saben cómo revelar un defecto y no pueden estar seguros de que la difusión de fallas de buena fe no los exponga a un riesgo legal», dice Ilona Cohen, directora legal y de política de política DA DA HackerUna compañía que organiza recompensas de insectos y un co -autor en el informe.
Actualmente, las grandes compañías de IA realizan extensas pruebas de seguridad en modelos de inteligencia artificial antes del lanzamiento. Algunos también contratan con compañías externas para hacer más encuestas. «¿Hay suficientes personas en estas (empresas) para resolver todos los problemas con los sistemas AM de uso general, utilizados por cientos de millones de personas en aplicaciones con las que nunca soñamos?» Longpre pregunta. Algunas compañías de IA han comenzado a organizar recompensas de insectos de IA. Sin embargo, Longpre dice que los investigadores independientes en riesgo de romper los términos de uso si se apoyan para investigar modelos de IA poderosos.
MundoDaily – #Los #investigadores #proponen #una #mejor #manera #informar #fallas #peligrosas
Publish: 2025-03-13 11:02:00