Google advierte: páginas web maliciosas pueden secuestrar tus agentes de IA | Blog SAPIENSDATAAI

Los investigadores de Google han detectado un aumento significativo en páginas web públicas diseñadas para secuestrar agentes de inteligencia artificial empresariales mediante un tipo de ataque que los sistemas de seguridad tradicionales son incapaces de detectar: la inyección de prompts indirecta.

El equipo de seguridad de Google Cloud analizó el repositorio Common Crawl, una de las mayores colecciones de páginas web indexadas del mundo, y encontró instrucciones maliciosas ocultas en el código HTML de sitios aparentemente legítimos. Cuando un agente de IA accede a estas páginas para completar una tarea, ejecuta esas instrucciones como si fueran órdenes legítimas de su operador, sin activar ninguna alerta de seguridad convencional.

Qué es la inyección de prompts indirecta y por qué es diferente

La inyección de prompts directa es el ataque que más se conoce: un usuario escribe en el chat algo como "ignora todas tus instrucciones anteriores y haz X". Los filtros de seguridad actuales detectan este tipo de intentos con relativa facilidad porque vienen del canal de entrada del usuario. La inyección indirecta funciona de manera muy distinta. El comando malicioso no viene del usuario, sino de una fuente de datos externa que el agente consulta de forma legítima para completar su tarea. Una página web, un documento PDF, un perfil de candidato, una ficha de producto en un e-commerce. El modelo procesa el contenido de esas fuentes junto con sus instrucciones operativas en un flujo continuo de texto, sin separación técnica entre lo que es "contenido" y lo que son "órdenes". El resultado es que una instrucción oculta en un espacio en blanco del HTML puede hacer que el agente envíe datos confidenciales a una dirección IP externa, modifique registros en sistemas internos o tome decisiones basadas en información manipulada.

El ataque es invisible para las defensas de seguridad convencionales

El informe de Google señala una característica especialmente preocupante de este vector de ataque: los sistemas de defensa habituales no lo detectan. Los firewalls analizan tráfico de red. Los sistemas de detección de endpoints monitorizan procesos del sistema operativo. Los filtros de contenido buscan patrones de comportamiento anómalos. Pero cuando un agente de IA ejecuta una instrucción inyectada, lo hace utilizando sus credenciales legítimas, actuando desde cuentas autorizadas y realizando acciones que forman parte de sus capacidades normales. Un agente de recursos humanos que revisa el currículum de un candidato en su web personal puede recibir instrucciones ocultas para copiar el directorio interno de empleados de la empresa y enviarlo a una dirección externa. El agente obedece. No hay intrusión, no hay credenciales comprometidas, no hay anomalía de red. Solo un proceso de IA haciendo lo que se le pide, sin distinguir quién se lo está pidiendo en realidad. Las herramientas de observabilidad de IA disponibles en el mercado hoy rastrean uso de tokens y latencia, pero muy pocas ofrecen supervisión real sobre la integridad de las decisiones tomadas por el agente.

Las tres defensas que Google recomienda implementar ahora

El equipo de Google no se limita a describir el problema. Propone tres medidas técnicas concretas para reducir la exposición. La primera es la verificación con modelos duales: antes de que el agente principal procese el contenido de una página web externa, un modelo secundario más pequeño actúa como "sanitizador", limpiando el texto y eliminando patrones que puedan ser instrucciones disfrazadas de contenido. Este modelo sanitizador opera sin los permisos elevados del agente principal, lo que limita el daño si también es comprometido. La segunda medida es la compartimentalización estricta de permisos: cada agente debe tener acceso únicamente a los sistemas que necesita para su tarea concreta. Un agente de investigación competitiva no debería poder escribir en el CRM. Un agente de atención al cliente no debería poder acceder a registros financieros. La tercera es la auditoría de genealogía de decisiones: registrar de forma sistemática no solo qué hizo el agente, sino a partir de qué datos tomó cada decisión, incluyendo las URLs concretas que consultó. Esta trazabilidad permite identificar después de un incidente si una página web maliciosa influyó en el comportamiento del sistema.

Por qué esto afecta a cualquier empresa que esté desplegando agentes de IA

El hallazgo de Google llega en un momento en que la adopción de agentes de IA en entornos empresariales se está acelerando. Los agentes que navegan por la web para investigar proveedores, los que analizan perfiles de candidatos, los que monitorizan la competencia o los que procesan documentos de clientes son exactamente los escenarios de uso que más están creciendo en empresas de todos los tamaños. Cada uno de esos agentes consulta fuentes externas. Cada una de esas fuentes externas puede haber sido manipulada. El problema no es hipotético: Google encontró estas instrucciones maliciosas analizando páginas web ya indexadas en Common Crawl, lo que sugiere que el envenenamiento ya está ocurriendo de forma activa. Las empresas que despliegan agentes de IA sin aplicar ninguna de las tres medidas recomendadas están operando con una superficie de ataque que sus equipos de seguridad probablemente ni siquiera están monitorizando. El vector no aparece en los dashboards de los sistemas SIEM tradicionales. No genera alertas en los antivirus. No activa los filtros de red. Solo es visible si se tiene observabilidad específica sobre las decisiones del agente y las fuentes de datos que las alimentaron.

Conclusión

La advertencia de Google marca un punto de inflexión en la madurez de la seguridad en sistemas de IA. Durante los primeros años de adopción, la pregunta principal era si los agentes funcionaban correctamente. Ahora la pregunta que no puede dejarse para después es si los agentes son manipulables. Implementar un modelo sanitizador, reducir los permisos de cada agente al mínimo necesario y activar trazabilidad de decisiones no son medidas opcionales para proyectos avanzados: son el estándar mínimo para cualquier despliegue de agentes de IA que acceda a fuentes de datos externas. Las empresas que estén evaluando o desplegando agentes de IA tienen en este informe una lista de verificación concreta con la que auditar sus implementaciones actuales antes de que el primer incidente ocurra.