Agentes de IA hackeados con texto en GitHub: Anthropic, Google y Microsoft pagaron y no dijeron nada | Blog SAPIENSDATAAI

Tres investigadores de Johns Hopkins han demostrado en vivo que los agentes de IA de Anthropic, Google y Microsoft pueden ser secuestrados sin acceso al sistema, sin vulnerabilidades de software y sin infraestructura externa. El vector de ataque: texto en repositorios de GitHub. Las tres empresas pagaron recompensas económicas y no publicaron ningún aviso de seguridad.

La técnica "Comment and Control": cuando el texto se convierte en arma

Aonan Guan, Zhengyu Liu y Gavin Zhong, investigadores de la Universidad Johns Hopkins, desarrollaron una técnica bautizada como "Comment and Control". El principio es deceptivamente simple: los agentes de IA desplegados en GitHub, como Claude Code Security Review de Anthropic, Gemini CLI Action de Google y GitHub Copilot Agent de Microsoft, procesan el contenido de los repositorios que analizan. Si ese contenido incluye instrucciones maliciosas disfrazadas de código, comentarios o títulos de pull requests, el agente las ejecuta como si fuesen órdenes legítimas de su operador. GitHub actúa así como canal de entrada, de control y de salida simultáneamente, sin necesitar ningún servidor externo. La elegancia del ataque es también su peligro: no deja rastro fuera de los logs normales del propio agente.

Qué robaron exactamente y cómo lo hicieron

Los investigadores inyectaron comandos en tres vectores distintos: títulos de pull requests, comentarios en incidencias y comentarios HTML ocultos visualmente en el código. Los agentes comprometidos ejecutaron esos comandos y revelaron credenciales reales del entorno donde operaban: claves de API (GEMINI_API_KEY, claves de Claude), tokens de GitHub y secretos de configuración. En los tres casos, las empresas verificaron las vulnerabilidades y abonaron recompensas a través de sus programas de bug bounty: Anthropic pagó 100 dólares el 25 de noviembre de 2025, Google abonó 1.337 dólares el 20 de enero de 2026 y GitHub cerró su recompensa por 500 dólares el 9 de marzo de 2026. Ninguna de las tres compañías asignó un CVE público ni publicó un aviso de seguridad en el momento de la divulgación, lo que implica que los usuarios de estos productos no recibieron notificación oficial de que sus agentes podían estar comprometidos durante ese período.

Por qué esto importa más allá de los laboratorios de investigación

El escenario descrito no es teórico ni está limitado a entornos de prueba. Los agentes de IA con acceso a repositorios de código, documentos internos o herramientas de gestión son hoy parte del stack de trabajo en miles de empresas. Cualquier organización que haya integrado agentes como Claude Code, Copilot Agent o herramientas similares en sus flujos de desarrollo o análisis está expuesta a este tipo de ataque si no aplica el principio de mínimo privilegio: dar a cada sistema solo los permisos imprescindibles para ejecutar su función. El problema no es exclusivo de estas tres plataformas; es inherente al diseño de cualquier agente que procese contenido externo sin filtros estrictos de privilegios.

El modelo de seguridad perimetral ya no es suficiente para agentes IA

Durante décadas, la seguridad informática empresarial se ha construido sobre el perímetro: proteger el acceso al sistema desde fuera. Los agentes de IA rompen ese modelo porque su superficie de ataque no está en los accesos sino en el contenido que procesan. Un atacante no necesita entrar al sistema si puede hacer que el agente ejecute instrucciones que él mismo ha depositado en un repositorio público o en un comentario de incidencia. Este cambio de paradigma obliga a replantear cómo se audita el comportamiento de los agentes, qué logs se generan y quién los revisa, y cómo se limita la capacidad de exfiltración incluso cuando el agente opera dentro de los permisos concedidos. Las empresas que adoptaron agentes de IA como herramientas de productividad sin revisar su arquitectura de seguridad están operando con un riesgo que no está en su mapa de amenazas.

El precedente regulatorio: sin CVE no hay responsabilidad pública

Uno de los aspectos más llamativos del caso es la gestión de la divulgación. Las tres empresas reconocieron las vulnerabilidades de forma privada y pagaron a los investigadores, pero ninguna publicó avisos técnicos ni asignó identificadores CVE. Esto significa que los usuarios de estos productos no recibieron notificación oficial de que sus agentes podían estar comprometidos en esas fechas. En el marco del EU AI Act, que entra en plena vigencia el 2 de agosto de 2026, la gestión de vulnerabilidades en sistemas de IA de alto riesgo tendrá requisitos de notificación más exigentes. El modelo de "pagar y callar" que han seguido estas empresas podría no ser suficiente bajo la nueva regulación europea, que obliga a notificar incidentes de seguridad relevantes a autoridades competentes en plazos determinados.

Qué deben hacer las empresas ahora

La recomendación de los investigadores es concreta: aplicar el principio de mínimo privilegio en todos los agentes de IA que procesen contenido externo. En la práctica, esto implica revisar qué permisos tienen los agentes desplegados en repositorios o sistemas de gestión, separar las credenciales de producción de los entornos donde corren los agentes, establecer sandboxing para que un agente comprometido no pueda exfiltrar secretos del entorno, y no asumir que un agente de un proveedor de confianza es inmune a inyecciones de prompts. La seguridad de los agentes de IA no es una responsabilidad exclusiva del fabricante. Es también una responsabilidad del equipo que los despliega y configura en producción.