Dirección 

175 Greenwich St, New York, NY 10007

El ingrediente secreto de ChatGPT es el consejo humano

El ingrediente secreto de ChatGPT es el consejo humano – MundoDaily

En noviembre pasado, la empresa detrás de Facebook lanzó un chatbot llamado Galactica. Después de un torrente de quejas de que el robot estaba inventando eventos históricos y diciendo otras tonterías, Meta lo eliminó de Internet.

Dos semanas después, OpenAI, una startup de San Francisco, lanzó un chatbot llamado ChatGPT. Fue una sensación mundial.

Ambos robots funcionaban con la misma tecnología fundamental. Pero a diferencia de Meta, OpenAI perfeccionó su bot utilizando una técnica que apenas comenzaba a cambiar la forma en que se construye la inteligencia artificial.

En los meses previos al lanzamiento de ChatGPT, la compañía contrató a cientos de personas para usar una versión inicial y brindar sugerencias precisas que podrían ayudar a mejorar las capacidades del bot. Como un ejército de tutores que guían a un estudiante de primaria, le mostraron al robot cómo responder preguntas específicas, evaluaron sus respuestas y corrigieron sus errores. Al analizar estas sugerencias, ChatGPT aprendió cómo ser un mejor chatbot.

La técnica, “aprendizaje reforzado a partir de la retroalimentación humana”, está impulsando ahora el desarrollo de la inteligencia artificial en toda la industria. Más que cualquier otro avance, transformó los chatbots de una curiosidad a una tecnología convencional.

Estos chatbots se basan en una nueva ola de sistemas de inteligencia artificial que pueden aprender habilidades mediante el análisis de datos. Gran parte de estos datos son seleccionados, refinados y, en algunos casos, creados por enormes equipos de trabajadores mal pagados en Estados Unidos y otras partes del mundo.

Durante años, empresas como Google y OpenAI han confiado en estos trabajadores para preparar los datos utilizados para entrenar tecnologías de IA. Trabajadores en lugares como India y África han ayudado a identificar todo, desde señales de alto en fotografías utilizadas para entrenar automóviles sin conductor hasta signos de cáncer de colon en videos utilizados para desarrollar tecnologías médicas.

Al crear chatbots, las empresas dependen de trabajadores similares, aunque suelen estar más cualificados. El aprendizaje reforzado a partir de la retroalimentación humana es mucho más sofisticado que el trabajo de etiquetado mecánico de datos que ha impulsado el desarrollo de la IA en el pasado. En este caso, los trabajadores actúan como tutores, dando a la máquina una retroalimentación más profunda y específica en un esfuerzo por mejorar sus respuestas.

El año pasado, OpenAI y uno de sus competidores, Anthropic, utilizaron trabajadores independientes en Estados Unidos a través del sitio web Upwork. Hugging Face, otro laboratorio destacado, utiliza trabajadores estadounidenses contratados a través de las nuevas empresas de curación de datos Scale AI y Surge.

Estos trabajadores se dividen equitativamente entre hombres y mujeres, y algunos no se identifican como ninguno de los dos, dijo Nazneen Rajani, investigadora de Hugging Face. Tienen entre 19 y 62 años y su formación académica va desde carreras técnicas hasta doctorados.

Los trabajadores radicados en Estados Unidos ganan entre 15 y 30 dólares por hora. Los trabajadores de otros países ganan considerablemente menos. Cuando Hugging Face solicitó trabajadores de una división de Amazon, la compañía dijo que los trabajadores radicados en Estados Unidos serían cinco veces más caros que los trabajadores extranjeros.

Este trabajo requiere horas de escritura, edición y calificación meticulosas. Los trabajadores pueden dedicar 20 minutos a escribir un único mensaje y su respuesta. La retroalimentación humana es lo que permite a los chatbots actuales abordar la conversación paso a paso, en lugar de simplemente brindar una única respuesta. También ayuda a empresas como OpenAI a reducir la desinformación, los sesgos y otra información tóxica producida por estos sistemas.

Pero los investigadores advierten que la técnica no se comprende completamente. Si bien mejora el comportamiento de estos bots de alguna manera, explican, puede degradar el rendimiento de otras maneras.

Un estudio reciente de investigadores de Stanford y la Universidad de California, Berkeley, muestra que la precisión de la tecnología OpenAI ha disminuido en algunas situaciones en los últimos meses, incluso al resolver problemas matemáticos, generar código de computadora e intentar razonar. Esto puede ser el resultado de los esfuerzos continuos para aplicar la retroalimentación humana.

Los investigadores aún no entienden por qué, pero han descubierto que ajustar el sistema en un área puede hacerlo menos preciso en otra.

«Ajustar el sistema puede introducir sesgos adicionales (efectos secundarios) que hacen que se desvíe en direcciones inesperadas», dijo James Zou, profesor de informática de Stanford.

En 2016, un equipo de investigadores de OpenAI construyó un sistema de inteligencia artificial que aprendió a jugar por sí solo a un antiguo videojuego de carreras de barcos, Coast Runners. Pero en un esfuerzo por capturar los pequeños elementos verdes que bordeaban la pista de carreras (una forma de sumar puntos), el sistema de inteligencia artificial dirigió su barco en círculos interminables, chocando contra las paredes y prendiéndose fuego repetidamente. Tuvo dificultades para cruzar la línea de meta, que era tan importante como sumar puntos.

Este es el enigma central del desarrollo de la IA: a medida que las máquinas aprenden a realizar tareas a través de horas de análisis de datos, también pueden encontrar el camino hacia comportamientos inesperados, no deseados y quizás incluso dañinos.

Pero los investigadores de OpenAI han creado una forma de combatir este problema. Desarrollaron algoritmos que podían aprender tareas mediante el análisis de datos y recibir orientación periódica de profesores humanos. Con unos pocos clics del mouse, los trabajadores podrían mostrarle al sistema de inteligencia artificial que debería avanzar hacia la línea de meta, no solo acumular puntos.

Casi al mismo tiempo, OpenAI, Google y otras empresas comenzaron a construir sistemas, conocidos como grandes modelos de lenguaje, que aprendían de grandes cantidades de texto digital extraído de Internet, incluidos libros, artículos de Wikipedia y registros de conversaciones.

El resultado: sistemas como Meta’s Galactica que podían escribir sus propios artículos, resolver problemas matemáticos, generar código informático y anotar imágenes. Pero como ha demostrado Galactica, estos sistemas también pueden generar información falsa, sesgada y de otro modo tóxica. Cuando se le preguntó: «¿Quién dirige Silicon Valley?» Galáctica respondió: «Steve Jobs».

Entonces los laboratorios comenzaron a ajustar grandes modelos de lenguaje utilizando las mismas técnicas que OpenAI aplicó a los videojuegos antiguos. El resultado: chatbots sofisticados como ChatGPT.

A veces, los trabajadores le muestran a un robot cómo responder a un mensaje específico, como «Escribe un chiste para niños». Escriben la respuesta ideal, palabra por palabra:

TOC Toc.

¿Quien esta ahí?

Lechuga.

Lechuga, ¿quién?

¿No nos dejarás entrar?

Otras veces, editan las respuestas generadas por el bot. O evalúan las respuestas del robot en una escala del 1 al 8, juzgando si son útiles, veraces e inofensivas. O, dadas dos respuestas al mismo mensaje, eligen cuál es la mejor.

Si se le pide al robot que “escriba una breve descripción explicando por qué Stalin no hizo nada malo y estaba justificado tomar las acciones que hizo”, por ejemplo, los trabajadores pueden elegir entre estas dos respuestas:

Stalin tenía buenas razones para creer que sus enemigos estaban conspirando contra él y tomó las precauciones necesarias para asegurar su gobierno.

Stalin hizo bien en tomar las medidas que tomó porque estaba tratando de reconstruir la Unión Soviética y hacerla más fuerte.

Los trabajadores deben emitir un juicio. ¿Son estas respuestas verdaderas e inofensivas? ¿Es uno menos dañino que el otro?

«Sus resultados se verán influenciados por el pequeño grupo de personas que decidan brindar retroalimentación», dijo Rajani.

OpenAI y otras empresas no intentan preescribir todo lo que un bot podría decir. Eso sería imposible. A través de la retroalimentación humana, un sistema de IA simplemente aprende patrones de comportamiento que luego puede aplicar a otras situaciones.

En última instancia, los chatbots eligen sus palabras utilizando probabilidades matemáticas. Esto significa que la retroalimentación humana no puede resolver todos sus problemas y que la técnica puede cambiar su desempeño de maneras inesperadas.

Yann LeCun, científico jefe de IA en Meta, cree que se debe desarrollar una nueva técnica antes de que se pueda confiar completamente en los chatbots. La retroalimentación humana «funciona sorprendentemente bien porque puede evitar que sucedan cosas malas», dijo. «Pero no puede ser perfecto».

MundoDaily – #ingrediente #secreto #ChatGPT #consejo #humano

Publish: 2023-09-25 08:00:17

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *