Entrenan a herramientas de IA con obras de Stephen King, Atwood y Murakami, entre otros
Una publicación aseguró que más de 170000 títulos se utilizan por empresas, sin el consentimiento de autores, ni su retribución, para enriquecer herramientas de IA
Obras reconocidas de escritores como Stephen King, Rachel Cusk, Zadie Smith, Margaret Atwood, Haruki Murakami y Elena Ferrante, entre otros, son parte del material utilizado para entrenar herramientas de inteligencia artificial, así lo sostiene el medio The Atlantic.
De acuerdo al artículo, más de 170000 títulos son utilizados en modelos administrados por empresas como Meta y Bloomberg, aportando datos que son utilizados por las firmas para construir sus herramientas de inteligencia artificial. Todo esto sin consentimiento de sus autores.
La biblioteca Books3 se utilizó para entrenar LLaMA, uno de varios grandes modelos de lenguaje –aunque el más conocido es ChatGPT de OpenAI– diseñado para generar contenido basado en patrones identificados en textos de muestra. El conjunto de datos también se utilizó para entrenar BloombergGPT de Bloomberg, GPT-J de EleutherAI y es “probable” que se haya utilizado en otros modelos de IA, de acuerdo con la investigación de The Atlantic.
Varios escritores, entre ellos Margaret Atwood, escribieron una misiva a las empresas para advertir que estos proyectos de inteligencia artificial están explotando sus obras, sin su consentimiento, quebrantando sus derechos de autor.
“Es justo que nos compensen por utilizar nuestros escritos, sin los cuales la IA sería banal y extremadamente limitada”, alegaron los firmantes del texto, quienes explicaron que este desarrollo capaz de generar contenidos textos debe su existencia a sus escritos: “Estas tecnologías imitan y regurgitan nuestro lenguaje, historias, estilo e ideas. Millones de libros, artículos, ensayos y poesías protegidos por derechos de autor proporcional el ‘alimento’ a los sistemas de IA, comidas interminables por la que no se nos ha pasado factura”, expresaron por entonces.
Esto se produce después de que una demanda presentada en el mes de julio, por tres escritores –Sarah Silverman, Richard Kadrey y Christopher Golden– alegara que sus obras protegidas por derechos de autor “fueron copiadas e ingeridas como parte del entrenamiento” del LLaMA de Meta. El análisis reveló que los escritos de los tres demandantes son efectivamente parte de Books3.
Por su parte, Shawn Presser, el desarrollador de IA independiente que creó originalmente Books3, dijo que si bien simpatiza con las preocupaciones de los autores, creó la base de datos para que cualquiera pueda desarrollar herramientas de IA generativa y no se desentiende de los riesgos de que las grandes empresas tengan el control de la tecnología.
OpenAI, la empresa detrás del chatbot de IA ChatGPT, también ha sido acusada de entrenar su modelo en obras de reconocidos escritores.
¿Qué autores serían utilizados para entrenar herramientas?
Entre los géneros que se utilizan en Books3 aproximadamente un tercio son libros de ficción y dos tercios de no ficción. La mayoría se publicaron en las últimas dos décadas. Junto con los escritos de Smith, King, Cusk y Ferrante, las obras con derechos de autor en el conjunto de datos incluyen 33 libros de Margaret Atwood, al menos nueve de Haruki Murakami, nueve de bell hooks, siete de Jonathan Franzen, cinco de Jennifer Egan y cinco de David Grann.
También se incluyen libros de George Saunders, Junot Díaz, Michael Pollan, Rebecca Solnit y Jon Krakauer, así como 102 novelas pulp del fundador de Scientology L Ron Hubbard y 90 libros del pastor John MacArthur.
Los títulos abarcan editoriales grandes y pequeñas, incluidos más de 30.000 publicados por Penguin Random House, 14.000 de HarperCollins, 7.000 de Macmillan, 1.800 de Oxford University Press y 600 de Verso.
En la última década, los autores han sufrido un descenso del 40% en sus ingresos. Los escritores a tiempo completo vienen ingresaron en 2022 una renta media de 23.000 dólares, muy poco para los estándares estadounidenses.