Anthropic enfrenta juicio por derechos de autor por usar libros pirata en entrenamiento | Blog SAPIENSDATAAI

Un juez federal de California ha rechazado la petición de Anthropic de apelar de forma inmediata una resolución sobre derechos de autor y ha dejado intacto el calendario para un juicio que comenzará el 1 de diciembre de 2025. La decisión mantiene vivo un juicio que podría exponer a la empresa creadora del chatbot Claude a reclamaciones multimillonarias por el uso —y, según los demandantes, el almacenamiento— de millones de libros supuestamente pirateados para entrenar sus modelos de lenguaje.

Qué alegan los autores y qué decidió el tribunal

La demanda colectiva fue presentada por los autores Andrea Bartz, Charles Graeber y Kirk Wallace Johnson, y el juez William Alsup autorizó que representen a una clase nacional de escritores cuyos libros habrían sido usados sin permiso. Los demandantes sostienen que Anthropic descargó entre 2021 y 2022 hasta 7 millones de libros desde bibliotecas pirata como LibGen y PiLiMi, y los conservó en una biblioteca central digital que sirvió de base para entrenamiento.

En audiencias previas Alsup determinó dos puntos clave: primero, que el uso de copias compradas y digitalizadas para entrenar modelos puede calificarse como uso transformador y, por tanto, encajar en la doctrina de fair use; segundo, que la mera preservación de obras piratas en un repositorio central podría violar los derechos de los autores y justificar el avance del caso hacia juicio. Sobre esa segunda cuestión, Anthropic pidió permiso para apelar de inmediato; el magistrado lo rechazó, indicando que la apelación debe esperar a que exista un expediente de juicio completo que el tribunal de apelaciones pueda evaluar.

Cómo, según la acusación, se construyó la biblioteca de entrenamiento

El expediente y reportes periodísticos señalan varias fuentes y prácticas controvertidas: corpus públicos y filtrados como Books3 y colecciones usadas en conjuntos de datos conocidos como The Pile, además de descargas desde portales de libros pirata (por ejemplo, LibGen y PiLiMi). También se ha documentado que la empresa, en etapas posteriores, adquirió libros impresos, les retiró las encuadernaciones y escaneó las páginas para digitalizarlos.

Anthropic sostiene que convertir copias legítimamente adquiridas en formatos digitales y emplearlas para entrenar un modelo constituye un uso transformador y, por tanto, legítimo. Los autores replican que, aunque parte del material fuera comprado, la existencia previa y el almacenamiento de obras pirateadas en una biblioteca centralizada excede los límites del uso permitido.

Aspectos jurídicos que definirán el juicio

Fair use (uso justo): el juzgado ya calificó el entrenamiento del modelo como potencialmente transformador, pero esa valoración no agota la controversia; el peso de los factores de fair use (propósito y carácter, naturaleza de la obra, cantidad y sustancialidad, efecto en el mercado) seguirá en discusión con evidencia de juicio.
Almacenamiento y repositorio central: la acusación fija en el almacenamiento continuado de copias piratas la posible infracción, diferenciando la ingestión transitoria en procesos técnicos del mantenimiento de una biblioteca permanente.
Prueba documental e interna: los correos y notas internas sobre la procedencia de los datos y las preocupaciones de empleados sobre la legalidad serán centrales para demostrar conocimiento y conducta.
Daños y alcance de la clase: la certificación como demanda colectiva permite reclamar en bloque y, según los demandantes, podría dar lugar a daños acumulados de gran cuantía.

Posibles remedios y magnitud del riesgo

Los litigios de derechos de autor pueden implicar daños estatutarios por obra, compensaciones por lucro cesante y medidas cautelares (por ejemplo, eliminación de material). Aunque los montos concretos dependerán del número exacto de obras en disputa y de las pruebas que se presenten en el juicio, los demandantes han sugerido que la exposición de Anthropic podría ascender a miles de millones de dólares si se acreditara una infracción masiva.

Contexto más amplio: precedentes y casos paralelos

El pleito contra Anthropic forma parte de una ola de demandas contra empresas de IA por el uso de material con copyright. Otros litigios notables han enfrentado a OpenAI, Microsoft, Meta y proveedores de datasets. Algunas decisiones recientes han favorecido a empresas tecnológicas al considerar transformadora la utilización de texto o imágenes para entrenamiento; otras han permitido el avance del proceso para investigar prácticas y técnicas concretas.

Casos previos —como fallos que permitieron fases de descubrimiento o que rechazaron ciertas defensas— muestran que los tribunales todavía no han establecido una regla generalmente aplicable sobre cuándo el entrenamiento de modelos constituye infracción total o parcial. En el caso de Anthropic, la combinación de una valoración favorable en fair use y de la persistencia de la reclamación por almacenamiento pirata subraya esa ambivalencia doctrinal.

Qué evidencias y argumentos serán decisivos en el juicio

Documentación de la procedencia de los datos usados para entrenar Claude (logs, listas de fuentes, contratos de adquisición).
Registros que prueben la existencia y la naturaleza del repositorio central —si era transitorio o permanente— y quién tenía control sobre él.
Peritajes técnicos sobre cómo se usan los textos en el entrenamiento y si el modelo reproduce fragmentos protegidos de manera no transformadora.
Prueba económica sobre el impacto en el mercado editorial o en las licencias de los autores.

Implicaciones para la industria y siguientes pasos procesales

El veredicto de este juicio y las apelaciones que seguramente lo seguirán podrían fijar límites prácticos para las empresas que entrenan IAs con grandes colecciones de texto adquirido o recopilado de la web. Si el tribunal de juicio falla a favor de los autores en aspectos sustantivos, es probable que haya apelaciones a la Corte de Apelaciones del Noveno Circuito e incluso recursos que lleguen al Tribunal Supremo si se plantean cuestiones federales amplias.

Por ahora, el rechazo del juez Alsup a la apelación interlocutoria mantiene el caso en el calendario y permite que el proceso fact-finding —descubrimiento de pruebas, peritajes y testimonios— se desarrolle antes de que un panel de apelación examine el expediente completo. Eso implica que las empresas de IA seguirán operando en un entorno jurídico incierto hasta que existan precedentes vinculantes de mayor jerarquía.

Calendario y puntos de atención

Fecha de inicio del juicio: 1 de diciembre de 2025.
Cuestión de apelabilidad: Alsup dejó clara su preferencia por que el Noveno Circuito revise la materia sobre una base factual consolidada tras el juicio, no de forma inmediata.
Vigilancia: durante el proceso habrá atención especial a las pruebas internas sobre adquisición de datos, a los expertos en modelos de lenguaje y a las métricas económicas usadas para evaluar daños.

Conclusión

El caso contra Anthropic combina una decisión parcial que, de entrada, respalda la noción de que el entrenamiento de modelos puede ser transformador con la persistencia de una reclamación concreta por almacenamiento de material pirateado. El litigio pondrá a prueba la capacidad de los tribunales para matizar el alcance del fair use en el contexto técnico de los modelos de lenguaje y, al mismo tiempo, establecerá señales prácticas para cómo las empresas recaban, procesan y archivan corpus textuales. La sentencia y las apelaciones que se produzcan a partir de diciembre de 2025 serán determinantes para la dirección futura de la política y la práctica en el entrenamiento de IA.

Fuentes principales del expediente y cobertura periodística: Reuters y AP; para contexto sobre colecciones de entrenamiento como Books3 y The Pile véase análisis técnicos y reportes especializados.