Dirección 

175 Greenwich St, New York, NY 10007

El modelo de IA de código abierto más capaz hasta el momento podría potenciar a los agentes de IA

El modelo de IA de código abierto más capaz hasta el momento podría potenciar a los agentes de IA – MundoDaily

El modelo de IA de código abierto con capacidades visuales más capaz hasta el momento podría impulsar a más desarrolladores, investigadores y nuevas empresas a desarrollar agentes de IA que puedan realizar tareas útiles en sus computadoras por usted.

Lanzado hoy por el Instituto Allen para la IA (Ai2), el Modelo de lenguaje abierto multimodalo Molmo, puede interpretar imágenes y chatear a través de una interfaz de chat. Esto significa que puede tener sentido en la pantalla de una computadora, lo que podría ayudar a un agente de IA a realizar tareas como navegar por la web, navegar por directorios de archivos y redactar documentos.

“Con este lanzamiento muchas más personas podrán implementar un modelo multimodal”, afirma Ali Farhadi Director ejecutivo de Ai2, una organización de investigación con sede en Seattle, Washington, e informático de la Universidad de Washington. «Debería ser un facilitador para las aplicaciones de próxima generación».

Los llamados agentes de IA están siendo ampliamente promocionados como la próxima gran novedad en IA, y OpenAI, Google y otros compiten para desarrollarlos. Agentes se ha convertido en una palabra de moda últimamente, pero la gran visión es que la IA vaya mucho más allá del chat para realizar de manera confiable acciones complejas y sofisticadas en las computadoras cuando se les dé una orden. Esta capacidad aún no se ha materializado en ninguna escala.

Algunos modelos de IA potentes ya tienen capacidades visuales, incluidos GPT-4 de OpenAI, Claude de Anthropic y Gemini de Google DeepMind. Estos modelos se pueden utilizar para impulsar algunos agentes de IA experimentales, pero están ocultos a la vista y solo se puede acceder a ellos a través de una interfaz de programación de aplicaciones paga, o API.

Meta ha lanzado una familia de modelos de IA llamada Llama bajo una licencia que limita su uso comercial, pero aún no ha proporcionado a los desarrolladores una versión multimodal. Se espera que Meta anuncie varios productos nuevos, quizás incluidos nuevos modelos Llama AI, en su evento Connect de hoy.

Press dice que el hecho de que Molmo sea de código abierto significa que los desarrolladores podrán ajustar más fácilmente a sus agentes para tareas específicas, como trabajar con hojas de cálculo, proporcionando datos de capacitación adicionales. Los modelos como GPT-4 solo se pueden modificar de forma limitada a través de sus API, mientras que un modelo completamente abierto se puede modificar ampliamente. «Cuando tienes un modelo de código abierto como este, tienes muchas más opciones», dice Press.

Ai2 está lanzando hoy varios tamaños de Molmo, incluido un modelo de 70 mil millones de parámetros y un modelo de mil millones de parámetros que es lo suficientemente pequeño como para ejecutarse en un dispositivo móvil. El recuento de parámetros de un modelo se refiere a la cantidad de unidades que contiene para almacenar y manipular datos y corresponde aproximadamente a sus capacidades.

Ai2 dice que Molmo es tan capaz como modelos comerciales considerablemente más grandes, a pesar de su tamaño relativamente pequeño, porque ha sido cuidadosamente entrenado con datos de alta calidad. El nuevo modelo también es completamente de código abierto, ya que, a diferencia de Llama da Meta, no existen restricciones en su uso. Ai2 también está publicando los datos de entrenamiento utilizados para crear el modelo, brindando a los investigadores más detalles sobre cómo funciona.

El lanzamiento de modelos potentes no está exento de riesgos. Estos modelos pueden adaptarse más fácilmente para fines nefastos; Es posible que algún día, por ejemplo, veamos la aparición de agentes de inteligencia artificial maliciosos diseñados para automatizar la piratería de sistemas informáticos.

Farhadi de Ai2 sostiene que la eficiencia y portabilidad de Molmo permitirán a los desarrolladores crear agentes de software más potentes que se ejecuten de forma nativa en teléfonos inteligentes y otros dispositivos portátiles. «El modelo de mil millones de parámetros ahora está funcionando al nivel o en la liga de modelos que son al menos 10 veces más grandes», afirma.

Sin embargo, la creación de agentes de IA útiles puede depender de algo más que modelos multimodales más eficientes. Un desafío clave es hacer que los modelos funcionen de manera más confiable. Esto bien puede requerir mayores avances en las capacidades de razonamiento de la IA, algo que OpenAI ha tratado de abordar con su último modelo o1, que demuestra capacidades de razonamiento paso a paso. El siguiente paso bien podría ser dotar a los modelos multimodales de tales capacidades de razonamiento.

Por ahora, el lanzamiento de Molmo significa que los agentes de IA están más cerca que nunca y pronto podrían ser útiles incluso fuera de los gigantes que gobiernan el mundo de la IA.

MundoDaily – #modelo #código #abierto #más #capaz #hasta #momento #podría #potenciar #los #agentes

Publish: 2024-09-25 09:00:00

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *