Los modelos de inteligencia artificial más potentes del mundo —ChatGPT, Claude, Gemini— se han construido sobre miles de millones de páginas web extraídas sin pedir permiso ni pagar un euro. Eso está a punto de cambiar. Dos iniciativas distintas, una liderada por RSL Collective y otra por Cloudflare, proponen mecanismos concretos para que los propietarios de contenido web cobren a los bots de IA por el acceso que hasta ahora han tomado gratis.

Cómo funciona el scraping masivo de los modelos de IA

Para entrenar un modelo de lenguaje grande como GPT-4 o Claude 3, las empresas de IA necesitan cantidades ingentes de texto. La mayor parte procede de Common Crawl, un repositorio público que indexa miles de millones de páginas web desde 2008. Los propios bots de las compañías —GPTBot de OpenAI, ClaudeBot de Anthropic, Googlebot de Google— rastrean activamente la web recogiendo artículos, blogs, foros y documentos. El proceso es automatizado, masivo y, hasta ahora, completamente gratuito para quienes entrenan los modelos. Los creadores de ese contenido no reciben notificación, compensación ni opción de elegir. El archivo robots.txt, diseñado en los años 90 para gestionar el indexado de buscadores, es el único mecanismo de control disponible: si un propietario indica que no quiere ser rastreado, el bot debería respetarlo. Pero bloquear equivale a invisibilizarse también en los buscadores. Una trampa con consecuencias económicas reales para cualquier negocio con presencia digital.

RSL Collective: cobrar en lugar de bloquear

RSL Collective propone un enfoque diferente al bloqueo puro. Su estándar abierto permitiría a los propietarios de webs fijar tarifas planas directamente en el archivo robots.txt: si un bot de IA quiere rastrear el contenido para entrenar sus modelos, tendrá que aceptar unas condiciones económicas. El modelo de distribución sería colectivo, similar al de las sociedades de derechos de autor: las tarifas recaudadas se repartirían entre los creadores según el uso real que hagan de su contenido los modelos. La iniciativa busca convertir robots.txt en un contrato económico, no solo en una lista de permisos técnicos. Si las grandes plataformas de contenido —periódicos, foros especializados, sitios de documentación técnica— lo adoptan de forma masiva, los modelos de IA tendrían que negociar acceso o renunciar a una parte significativa de su corpus de entrenamiento.

Cloudflare AI Labyrinth: tecnología contra los rastreadores no autorizados

Cloudflare, que gestiona la infraestructura de red de una parte significativa de la web mundial, ha presentado AI Labyrinth, un conjunto de herramientas para los propietarios de webs que quieren controlar —o monetizar— el acceso de los bots de IA. La propuesta es doble: permite bloquear directamente los rastreadores de IA conocidos con un clic y ofrece mecanismos para establecer acuerdos comerciales con empresas que quieran acceder al contenido de forma legítima y pagada. El nombre AI Labyrinth hace referencia a una táctica defensiva concreta: presentar a los bots no autorizados contenido generado artificialmente —correcto en apariencia, pero inútil para el entrenamiento— mientras se registra su actividad. Es una trampa de miel para rastreadores. Esto resuelve el problema técnico de la aplicación real: hasta ahora, bloquear bots en robots.txt dependía de que el bot quisiera obedecer. Con AI Labyrinth, el incumplimiento tiene consecuencias técnicas directas.

El contexto legal: litigios que presionan al sector

Estas iniciativas técnicas no surgen en el vacío. OpenAI y Anthropic enfrentan decenas de demandas por uso no autorizado de contenido protegido por derechos de autor. El New York Times demandó a OpenAI y Microsoft reclamando compensación por el uso de sus artículos. Getty Images demandó a Stability AI por usar millones de imágenes sin licencia. OpenAI ya ha cerrado acuerdos de licenciamiento con Associated Press y con Reddit antes de su salida a bolsa, reconociendo que el contenido tiene un valor que debe compensarse. En la Unión Europea, la normativa de derechos de autor podría aplicarse al uso de contenido protegido para entrenamiento de IA, aunque la regulación específica todavía se está desarrollando. La combinación de presión legal creciente y soluciones técnicas está creando las condiciones para que el contenido web tenga un precio real para las empresas de IA por primera vez en la historia.

Qué significa para las empresas con presencia digital

Para cualquier empresa o profesional que genere contenido digital —un medio especializado, una consultoría con blog técnico, un e-commerce con reseñas de producto, una plataforma de formación online— esta evolución abre una posibilidad que no existía hace dos años: convertir el contenido en un activo licenciable en lugar de en un recurso gratuito para terceros. No es especulación: los acuerdos ya firmados entre OpenAI y grandes plataformas de contenido demuestran que el modelo es viable. La pregunta relevante para las empresas medianas no es si este mercado de licencias de contenido para IA va a existir, sino cuándo querrán participar en él. Bloquear completamente a los bots puede reducir la visibilidad en buscadores. Negociar acceso licenciado, en cambio, podría generar una nueva línea de ingresos pasivos con el contenido que ya existe.

Conclusión

La era del scraping gratuito como base del entrenamiento de IA está llegando a su fin. No porque las empresas de IA lo hayan decidido voluntariamente, sino porque la presión legal, la tecnología de defensa y los estándares de licenciamiento emergentes están cerrando el grifo. Iniciativas como RSL Collective y Cloudflare AI Labyrinth representan el primer paso hacia un ecosistema donde el contenido humano —artículos, análisis, guías técnicas— tiene un precio reconocido también para los modelos que lo consumen. Para las empresas con presencia digital, entender este cambio ahora es una ventaja. Dentro de dos años, puede ser una necesidad.