Dirección
175 Greenwich St, New York, NY 10007
Desde hace algún tiempo, empresas como OpenAI y Google han promocionando capacidades avanzadas de «razonamiento» como el siguiente gran paso en sus últimos modelos de inteligencia artificial. Ahora, sin embargo, un nuevo estudio realizado por seis ingenieros de Apple muestra que el “razonamiento” matemático presentado por modelos de lenguaje grandes avanzados puede ser extremadamente frágil y poco confiable ante cambios aparentemente triviales en problemas de referencia comunes.
Las debilidades destacadas en estos nuevos resultados ayudan a respaldar investigaciones anteriores que sugieren que el uso de la coincidencia de patrones probabilísticos por parte de los LLM carece de la comprensión formal de los conceptos subyacentes necesarios para capacidades de razonamiento matemático verdaderamente confiables. «Los LLM actuales no son capaces de realizar un razonamiento lógico genuino», suponen los investigadores basándose en estos resultados. «En cambio, intentan replicar los pasos de razonamiento observados en sus datos de entrenamiento».
En «GSM-Symbolic: Comprensión de las limitaciones del razonamiento matemático en modelos de lenguaje grandes», actualmente disponible como papel preimpreso—comienzan los seis investigadores de Apple Conjunto estandarizado GSM8K de más de 8000 problemas planteados de matemáticas de nivel de gradoqué es frecuentemente usado como referencia a las complejas capacidades de razonamiento de los LLM modernos. Luego adoptan el enfoque novedoso de modificar una parte de este conjunto de pruebas para reemplazar dinámicamente ciertos nombres y números con nuevos valores, por lo que una pregunta sobre cómo Sophie obtuvo 31 bloques de construcción para su sobrino en GSM8K podría convertirse en una pregunta sobre cómo Bill obtuvo 19 edificios. bloques para su hermano en la nueva evaluación GSM-Symbolic.
Este enfoque ayuda a evitar cualquier posible «contaminación de datos» que podría resultar de que las preguntas estáticas GSM8K se introduzcan directamente en los datos de entrenamiento de un modelo de IA. Al mismo tiempo, estos cambios incidentales no hacen nada para alterar la dificultad real del razonamiento matemático inherente, lo que significa que, en teoría, los modelos deberían funcionar tan bien cuando se prueban en GSM-Symbolic como en GSM8K.
En cambio, cuando los investigadores probaron más de 20 LLM de última generación en GSM-Symbolic, descubrieron que la precisión promedio se redujo en general en comparación con GSM8K, con caídas de rendimiento entre 0,3% y 9,2%, según el modelo. Los resultados también mostraron una gran variación en 50 ejecuciones separadas de GSM-Symbolic con diferentes nombres y valores. Eran comunes diferencias de hasta el 15% en la precisión entre las mejores y las peores ejecuciones dentro de un solo modelo y, por alguna razón, cambiar los números tendía a dar como resultado una precisión peor que cambiar los nombres.
Este tipo de variación, tanto dentro de diferentes ejecuciones de GSM-Symbolic como en comparación con los resultados de GSM8K, es más que sorprendente ya que, como señalan los investigadores, «los pasos generales de razonamiento necesarios para resolver una pregunta siguen siendo los mismos». El hecho de que estos pequeños cambios conduzcan a resultados tan variables sugiere a los investigadores que estos modelos no están haciendo ningún razonamiento “formal”, sino que están “tratando de realizar una especie de coincidencia de patrones en la distribución, alineando ciertas preguntas y pasos de solución con otros similares”. visto en los datos de entrenamiento”.
Aún así, la variación general mostrada para las pruebas GSM-Simbólicas fue a menudo relativamente pequeña en el gran esquema de las cosas. ChatGPT-4o de OpenAI, por ejemplo, cayó del 95,2% de precisión en GSM8K a un todavía impresionante 94,9% en GSM-Symbolic. Esa es una tasa de éxito bastante alta usando cualquiera de los puntos de referencia, independientemente de si el modelo en sí estaba usando o no un razonamiento «formal» detrás de escena (aunque la precisión general de muchos modelos cayó precipitadamente cuando los investigadores agregaron solo uno o dos pasos de lógica adicional a los problemas). ).
Sin embargo, los LLM evaluados obtuvieron resultados mucho peores cuando los investigadores de Apple modificaron el punto de referencia GSM-Symbolic agregando «declaraciones aparentemente relevantes pero en última instancia intrascendentes» a las preguntas. Para este conjunto de pruebas comparativas «GSM-NoOp» (abreviatura de «sin operación»), se puede modificar una pregunta sobre cuántos kiwis recoge alguien durante varios días para incluir el detalle incidental de que «cinco de ellos (los kiwis) eran un poco más pequeños que el promedio.»
Agregar estas pistas falsas condujo a lo que los investigadores llamaron “caídas catastróficas del rendimiento” en la precisión en comparación con el GSM8K, que van desde el 17,5% hasta un asombroso 65,7%, según el modelo probado. Estas caídas masivas en la precisión resaltan los límites inherentes al uso de una simple “coincidencia de patrones” para “convertir declaraciones en operaciones sin comprender realmente su significado”, escriben los investigadores.
MundoDaily – #Los #ingenieros #Apple #muestran #frágil #puede #ser #razonamiento
Publish: 2024-10-15 19:55:00