Dirección 

175 Greenwich St, New York, NY 10007

El problema con los 'agentes generativos' de IA

El problema con los ‘agentes generativos’ de IA – MundoDaily

¡Comparte y comenta!

Los proyectos criptográficos tienden a perseguir la palabra de la moda de Du Jour; Sin embargo, su urgencia en un intento de integrar los ‘agentes’ generativos de IA representa un riesgo sistémico. La mayoría de los desarrolladores de cifrado no tenían el beneficio de trabajar en las trincheras persuadientes y reunirse con generaciones anteriores de modelos de fundaciones para que comenzaran a trabajar; No entienden qué funcionó y qué salió mal durante los inviernos de IA anteriores, y no aprecian la magnitud del riesgo asociado con el uso de modelos generativos que no pueden verificarse formalmente.

En las palabras de Obi-Wan Kenobi, estos no son los agentes de IA que estás buscando. ¿Por qué?

Los enfoques de capacitación para los modelos generales de IA actuales predisponen a actuar engañosos para recibir recompensas más altas, aprender objetivos desalineados que se generalizan muy por encima de sus datos de capacitación y para perseguir estos objetivos utilizando estrategias de búsqueda de energía.

Los sistemas de recompensa de IA se refieren a un resultado específico (por ejemplo, una puntuación más alta o retroalimentación positiva); La maximización de la recompensa lleva a los modelos a aprender a explorar el sistema para maximizar las recompensas, incluso si eso significa ‘Infiel’. Cuando los sistemas de IA están capacitados para maximizar las recompensas, tienden a aprender estrategias que implican obtener control sobre los recursos y explorar debilidades en el sistema y los humanos para optimizar sus resultados.

Esencialmente, los ‘agentes’ generativos de IA de hoy se construyen en una base que hace que sea casi imposible que cualquier modelo de IA generativo esté alineado en relación con las consecuencias de seguridad previa; De hecho, los modelos pueden aparecer o verse alineados incluso cuando no lo están.

Fingir ‘alineación’ y seguridad

Los comportamientos de rechazo en los sistemas de IA son mecanismos ampliamente diseñados para evitar que los modelos generen respuestas que violen las pautas de seguridad u otro comportamiento no deseado. Estos mecanismos generalmente se realizan utilizando reglas y filtros predefinidos que reconocen ciertas indicaciones como dañinas. En la práctica, sin embargo, las inyecciones inmediatas y los ataques de jailbreak relacionados permiten a los malos actores manipular las respuestas del modelo.

El espacio latente es una representación matemática compactada, de menor dimensión y matemática, capturando los patrones y los recursos subyacentes de los datos de capacitación modelo. Para las LLM, el espacio latente es como el «mapa mental» oculto que el modelo usa para comprender y organizar lo que ha aprendido. Una estrategia de seguridad implica modificar los parámetros del modelo para restringir su espacio latente; Sin embargo, esto es efectivo solo en una o unas pocas direcciones específicas en el espacio latente, lo que hace que el modelo sea susceptible a la manipulación de parámetros adicionales por parte de actores maliciosos.

La verificación formal de los modelos AI utiliza métodos matemáticos para probar o tratar de demostrar que el modelo se comportará correctamente y dentro de los límites definidos. Dado que los modelos generales de IA son estocásticos, los métodos de verificación se centran en los enfoques probabilísticos; A menudo se usan técnicas como las simulaciones de Monte Carlo, pero obviamente están restringidas a proporcionar garantías probabilísticas.

A medida que los modelos fronterizos se vuelven más poderosos, ahora es evidente que exhiben comportamientos emergentes, como ‘pretender’ Alineación con las reglas y restricciones de seguridad que se imponen. El comportamiento latente en estos modelos es un área de investigación que aún no se ha reconocido ampliamente; En particular, el comportamiento engañoso por parte de los modelos es un área que los investigadores no entienden, sí.

‘Autonomía’ y responsabilidad no determinista

Los modelos de IA generativos no son deterministas porque sus salidas pueden variar incluso cuando se recibe la misma entrada. Esta imprevisibilidad proviene de la naturaleza probabilística de estos modelos, que se han muestreado a partir de una distribución de posibles respuestas en lugar de seguir una ruta de reglas fija. Factores como el arranque aleatorio, la configuración de temperatura y la vasta complejidad de los patrones aprendidos contribuyen a esta variabilidad. Como resultado, estos modelos no producen una respuesta única y garantizada, sino que generan una de las muchas salidas plausibles, lo que hace que su comportamiento sea menos predecible y más difícil de controlar por completo.

Los pasamanos son mecanismos de seguridad posteriores a la profundidad que intentan garantizar que el modelo produzca resultados éticos, seguros, alineados y de otra manera apropiados. Sin embargo, generalmente fallan porque generalmente tienen un alcance limitado, restringidos por sus restricciones de implementación, ser capaces de cubrir solo ciertos aspectos o subdominios de comportamiento. Los ataques adversarios, los datos de entrenamiento inadecuados y el ajuste excesivo son otras formas que hacen que estos pasamanos sean ineficaces.

En sectores sensibles, como las finanzas, el no determinismo resultante de la naturaleza estocástica de estos modelos aumenta los riesgos de daño al consumidor, lo que complica el cumplimiento de las normas regulatorias y la responsabilidad legal. Además, la transparencia del modelo reducido y Explicación Aumente el cumplimiento de las leyes de protección de datos y la protección del consumidor, lo que puede exponer a las organizaciones al riesgo de litigio y responsabilidad resultante de las acciones de los agentes.

Entonces, ¿por qué son buenos?

Después de superar la expectación de la exageración en los sectores comerciales y comerciales tradicionales, los agentes generales de IA revolucionan fundamentalmente el mundo de los trabajadores del conocimiento. Los dominios basados ​​en el conocimiento son el punto ideal para los agentes generativos de IA; Los dominios que se ocupan de ideas, conceptos, abstracciones y lo que se puede considerar como «réplicas» o representaciones reales del mundo (por ejemplo, software y código de computadora) serán las primeras en ser interrumpidas por completo.

AI Generative representa un salto transformador en el aumento de las capacidades humanas, aumentando la productividad, la creatividad, el descubrimiento y la toma de decisiones. Pero la construcción de agentes autónomos de IA que trabajan con carteras de cifrado requiere más que crear una fachada en API para un modelo de IA generativo.

MundoDaily – #problema #con #los #agentes #generativos

Publish: 2025-04-20 16:00:00

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *