Entrenar modelos de IA sin violar derechos de autor es posible
(Wired) -- OpenAI asegura que es “imposible” desarrollar modelos de IA potentes sin usar datos protegidos por derechos de autor. Un gran modelo de lenguaje “creado éticamente” y un gigantesco conjunto de datos de entrenamiento con textos de dominio público sugieren lo contrario.
En 2023, OpenAI declaró ante el Parlamento de Reino Unido que era “imposible” entrenar los principales modelos de inteligencia artificial (IA) sin recurrir a materiales protegidos por derechos de autor. Se trata de una postura popular en el mundo de la IA, en el que esta compañía y otros actores importantes han aprovechado el contenido en internet para preparar y desarrollar los modelos que impulsan los chatbots y los generadores de imágenes, lo que ha desencadenado una serie de demandas por violar la propiedad intelectual.
Dos anuncios realizados ofrecen pruebas de que, de hecho, es posible entrenar grandes modelos de lenguaje (LLM, por sus siglas en inglés) sin necesidad de usar sin permiso materiales protegidos por derechos de autor.
Entrenamiento de una IA de forma justa
Un grupo de investigadores respaldados por el gobierno francés publicaron lo que se considera el mayor conjunto de datos de entrenamiento de IA compuesto íntegramente por textos de dominio público. Y la organización sin fines de lucro Fairly Trained dio a conocer que otorgó su primera certificación a un LLM construido sin infringir los derechos de autor, lo que demuestra que una tecnología como la que está detrás de ChatGPT puede construirse de una forma distinta a la controvertida costumbre de la industria.
“No hay ninguna razón fundamental por la que alguien no sea capaz de entrenar un LLM de forma justa”, comenta Ed Newton-Rex, CEO de Fairly Trained. Fundó la organización en enero de 2024, tras abandonar su puesto directivo en la startup de generación de imágenes Stability AI, porque no estaba de acuerdo con su política de raspado de contenidos de internet sin autorización.
Fairly Trained ofrece una certificación a las compañías dispuestas a demostrar que entrenaron sus modelos de IA con datos de su propiedad, bajo licencia o de dominio público. Cuando la organización sin fines de lucro inició sus operaciones, algunos detractores destacaron que esta aún no había identificado un LLM que cumpliera esos requisitos.
Hoy, Fairly Trained anunció que ha certificado su primer LLM. Se llama KL3M y fue desarrollado por la startup de consultoría en tecnología jurídica 273 Ventures, con sede en Chicago (EE UU), a partir de un conjunto de datos de entrenamiento de documentos legales, financieros y normativos.
Jillian Bommarito, cofundadora de la compañía, asegura que la decisión de preparar a KL3M de este modo surgió de los clientes “reacios al riesgo” de la empresa, como los despachos de abogados. “Les preocupa la procedencia y necesitan saber que los resultados no se basan en datos corruptos”, resalta. “No nos amparamos en el uso justo”. Los clientes estaban interesados en emplear la IA generativa para tareas como resumir documentos jurídicos y redactar contratos, pero no querían verse arrastrados a litigios sobre propiedad intelectual, como les ha ocurrido a OpenAI, Stability AI y otros.
Bommarito comparte que 273 Ventures no había trabajado antes con un LLM, pero decidió entrenar uno como experimento. “Nuestra prueba para ver si era posible”, dice. La compañía creó su propio conjunto de datos de entrenamiento, llamado “Kelvin Legal DataPack”, que incluye miles de documentos legales revisados para cumplir la ley de derechos de autor.
Aunque el conjunto de datos es minúsculo (de unos 350,000 millones de tokens, o unidades de datos) en comparación con los recopilados por OpenAI y otros que han raspado internet en masa, Bommarito sostiene que el modelo KL3M funcionó mucho mejor de lo esperado, algo que atribuye al cuidado con que se habían comprobado las fuentes de información previamente. “Tener datos limpios y de alta calidad implica no tener que hacer el modelo tan grande”, resalta. La selección de un conjunto de datos contribuye a que un modelo de IA acabado se especialice en la tarea para la que se diseñó. 273 Ventures ofrece ahora reservas en una lista de espera a los clientes que quieran comprar acceso a esta información.
Grandes modelos de lenguaje para IA creados legalmente
Las empresas que quieran emular a KL3M tendrán más ayuda en el futuro en forma de conjuntos de datos libres de infracciones y disponibles gratuitamente. Unos investigadores publicaron lo que consideran el mayor conjunto de datos de IA para modelos de lenguaje compuesto exclusivamente por contenido de dominio público. Common Corpus, que así se llama, es una colección de materiales escritos aproximadamente del mismo tamaño que los que se utilizaron para entrenar el modelo de generación de texto GPT-3 de OpenAI, y se ofreció en la plataforma de IA de código abierto Hugging Face.
El conjunto de datos se construyó a partir de fuentes como periódicos de dominio público digitalizados por la Biblioteca del Congreso de EE UU y la Biblioteca Nacional de Francia. Pierre-Carl Langlais, coordinador del proyecto Common Corpus, lo denomina un “conjunto lo suficientemente grande como para entrenar un LLM de última generación”. En la jerga de la IA de gran tamaño, contiene 500,000 millones de tokens; se cree que el modelo más capaz de OpenAI se entrenó con varios billones.
Common Corpus es una colaboración coordinada por la startup francesa Pleias, en asociación con otros grupos de inteligencia artificial, como Allen AI, Nomic AI y EleutherAI. Está respaldado por el Ministerio de Cultura de Francia y presume de incluir el mayor conjunto de datos abiertos en francés hasta la fecha. Sin embargo, aspira a ser multicultural y multiuso, una forma de ofrecer a los investigadores y a las startups de una amplia variedad de campos acceso a un conjunto de entrenamiento verificado, libre de preocupaciones sobre posibles infracciones.
El nuevo conjunto de datos también tiene sus limitaciones. Muchos contenidos de dominio público son obsoletos; en Estados Unidos, por ejemplo, la protección de los derechos de autor suele durar más de setenta años a partir de la muerte del creador, por lo que no será capaz de entrenar un modelo de IA en temas de actualidad o, digamos, en cómo redactar un post para blog empleando la jerga de hoy en día. Aunque, por otro lado, redactaría un excelente pastiche de Proust.
“Por lo que yo sé, este es actualmente el mayor conjunto de datos de dominio público hasta la fecha para entrenar LLM”, opina Stella Biderman, directora ejecutiva de EleutherAI, un proyecto colectivo de código abierto que publica modelos de IA. “Es un recurso inestimable”.
Los proyectos como este también son extremadamente raros. Ningún otro LLM aparte del de 273 Ventures se ha presentado ante Fairly Trained para su certificación. Pero algunos de los que quieren que la inteligencia artificial sea más justa para los artistas cuyas obras han sido engullidas en sistemas como GPT-4 esperan que Common Corpus y KL3M demuestren que existe un sector del mundo de la IA escéptico ante los argumentos que justifican el raspado de datos sin permiso.
“Es un argumento de venta”, señala Mary Rasenberger, CEO del Sindicato de Autores de EE UU (Authors Guild), que representa a los escritores de libros. “Estamos empezando a ver muchas más licencias y solicitudes de permisos. Es una tendencia creciente”. El Sindicato de Autores, junto con el de actores de cine y artistas de la radio y la televisión SAG-AFTRA y otros grupos de profesionistas, fue nombrado recientemente colaborador oficial de Fairly Trained.
Aunque no tiene más LLM en su lista, Fairly Trained certificó recientemente a su primera compañía que ofrece modelos de voz de IA, la startup española de cambio de voz VoiceMod, así como a su primera “banda de inteligencia artificial”, un proyecto de heavy metal llamado Frostbite Orckings.
Commentaires