Dirección
175 Greenwich St, New York, NY 10007
Dirección
175 Greenwich St, New York, NY 10007
Además del tesoro de libros, la Iniciativa de Datos Institucionales también está trabajando con la Biblioteca Pública de Boston para digitalizar millones de artículos de diferentes periódicos que ahora son de dominio público, y dice que está abierta a formar colaboraciones similares en el futuro. No se ha definido la forma exacta en que se publicará el conjunto de datos del libro. La Iniciativa de Datos Institucionales ha pedido a Google que trabaje en conjunto en la distribución pública, pero aún se están resolviendo los detalles. En un comunicado, Kent Walker, presidente de asuntos globales de Google, dijo que la empresa estaba «orgullosa de apoyar» el proyecto.
Independientemente de cómo se publique el conjunto de datos de IDI, se unirá a una serie de proyectos, nuevas empresas e iniciativas similares que prometen brindar a las empresas acceso a materiales de capacitación en IA sustanciales y de alta calidad sin el riesgo de encontrar problemas de derechos de autor. Han surgido empresas como Calliope Networks y ProRata para emitir licencias y ejecutar esquemas de compensación diseñados para que los creadores y titulares de derechos paguen por proporcionar datos de capacitación en IA.
También hay otros proyectos nuevos de dominio público. La primavera pasada, la startup francesa de IA Pleias lanzó su propio conjunto de datos de dominio público, Common Corpus, que contiene entre 3 y 4 millones de libros y colecciones periódicas, según el coordinador del proyecto, Pierre-Carl Langlais. Con el apoyo del Ministerio de Cultura francés, Common Corpus se ha descargado más de 60.000 veces sólo este mes en la plataforma de inteligencia artificial de código abierto Hugging Face. La semana pasada, Pleias anunció que lanzará su primer conjunto de grandes modelos de lenguaje entrenados en este conjunto de datos, que Langlais dijo a WIRED que constituyen los primeros modelos «entrenados exclusivamente en datos abiertos y de conformidad con la Ley de IA (de la UE)». .
También se están realizando esfuerzos para crear conjuntos de datos de imágenes similares. Generación de inicio de IA liberado Este verano lanzó su propio proyecto llamado Source.Plus, que contiene imágenes de dominio público de Wikimedia Commons, así como una variedad de museos y archivos. Varios importantes instituciones culturales Durante mucho tiempo han puesto sus propios archivos a disposición del público como proyectos independientes, como el Museo Metropolitano de Arte de Nueva York.
Ed Newton-Rex, un ex ejecutivo de Stability AI que ahora dirige una organización sin fines de lucro que certifica herramientas de IA capacitadas éticamente, dice que el aumento de estos conjuntos de datos muestra que no hay necesidad de robar materiales protegidos por derechos de autor para construir modelos de IA de alto rendimiento y calidad. OpenAI dijo anteriormente a los legisladores del Reino Unido que sería «imposible”para crear productos como ChatGPT sin utilizar obras con derechos de autor. «Grandes conjuntos de datos de dominio público como estos socavan aún más la ‘defensa de necesidad’ que algunas empresas de IA utilizan para justificar la eliminación de obras protegidas por derechos de autor para entrenar sus modelos», afirma Newton-Rex.
Pero todavía tiene reservas sobre si la IDI y proyectos similares realmente cambiarán el status quo en la formación en IA. “Estos conjuntos de datos sólo tendrán un impacto positivo si se utilizan, probablemente junto con la concesión de licencias de otros datos, para reemplazar obras protegidas por derechos de autor. Si simplemente se añaden a la mezcla, una parte de un conjunto de datos que también incluye el trabajo sin licencia de los creadores del mundo, beneficiará abrumadoramente a las empresas de IA”, afirma.
MundoDaily – #Harvard #está #lanzando #enorme #conjunto #datos #entrenamiento #gratuito #financiado #por #OpenAI #Microsoft
Publish: 2024-12-12 10:06:00