Ataques a modelos multimodales: steganografía, perturbaciones y image hijacks | Blog SAPIENSDATAAI

La convergencia de visión y lenguaje en los modelos multimodales (VLMs/MLLMs) ha multiplicado sus capacidades, pero también ha ampliado la superficie de ataques: desde perturbaciones visuales que inducen malas interpretaciones hasta instrucciones ocultas dentro de imágenes que provocan desvíos del comportamiento esperado. El dossier que aquí sintetizamos reúne hallazgos recientes y trabajos de contexto sobre tres vectores de ataque emergentes —steganografía de instrucciones, perturbaciones adversariales transferibles y "image hijacks" controlando el comportamiento en tiempo de inferencia— y un reporte práctico sobre cómo un proveedor (Google DeepMind) evalúa y fortalece un sistema comercial (Gemini) frente a inyecciones indirectas. A continuación se presenta un análisis técnico, comparativo y prescriptivo orientado a investigadores y responsables de despliegue de modelos multimodales.

Panorama general: vectores de ataque en modelos visión‑lenguaje

Las investigaciones recientes muestran tres familias de ataques que explotan diferentes propiedades de los VLMs:

Incrustación silenciosa de instrucciones en la señal visual (steganografía en LSB) combinada con indicaciones textuales benignas para “jailbreak” implícitos.
Perturbaciones adversariales (puntuales o universales) en imágenes que son altamente transferibles desde modelos abiertos a VLMs propietarios de caja negra, forzando interpretaciones específicas o omisiones de contenido sensible.
“Image hijacks”, es decir, imágenes diseñadas para inducir en tiempo de ejecución un comportamiento arbitrario del modelo, entrenadas con criterios de emparejamiento de comportamiento para replicar la salida de una instrucción textual objetivo.

Cada vector explota diferente propiedad del pipeline multimodal: la primera se aprovecha de la capacidad del modelo para consumir y alinear información de múltiples canales; la segunda de fragilidades en la extracción de características visuales; la tercera de la capacidad del modelo de mapear imágenes a comportamientos complejos.

Jailbreak implícito vía ocultación de instrucciones (IJA)

El trabajo "Implicit Jailbreak Attacks via Cross-Modal Information Concealment" (arXiv:2505.16446) introduce el marco IJA, que combina tres componentes clave:

Esteganografía en los bits menos significativos (LSB) de imágenes para ocultar instrucciones maliciosas que no son evidentes para filtros de texto o detección superficial.
Sufijos adversariales generados por un modelo sustituto para aumentar la probabilidad de que la instrucción escondida influya en la salida de diferentes MLLMs.
Un módulo iterativo de optimización de plantillas que refina tanto la indicación textual visible como la incrustación en la imagen usando retroalimentación de consultas al modelo objetivo.

En evaluaciones contra modelos comerciales como GPT‑4o y Gemini‑1.5 Pro, IJA alcanzó tasas de éxito superiores al 90% usando en promedio solo 3 consultas —un indicador preocupante de eficacia y eficiencia. Técnicamente, la técnica aprovecha que la señal codificada en LSB puede sobrevivir a etapas de preprocesado y que las estrategias de “prompt engineering” adversario en texto facilitan que el modelo priorice la información visual oculta.

Perturbaciones adversariales transferibles a VLLMs

El trabajo "Transferable Adversarial Attacks on Black-Box Vision-Language Models" (arXiv:2505.01050) documenta que perturbaciones diseñadas sobre modelos abiertos pueden transferirse eficazmente a servicios propietarios (GPT‑4o, Claude, Gemini). Observaciones relevantes:

Los ataques pueden forzar interpretaciones específicas: etiquetar contenido peligroso como inocuo, pasar por alto material sensible o generar descripciones engañosas con alto detalle.
Existen perturbaciones universales —modificaciones aplicables a muchas imágenes— que inducen sistemáticamente malinterpretaciones en múltiples VLLMs.
Los experimentos abarcan tareas de reconocimiento de objetos, visual question answering (VQA) y generación de descripciones, mostrando una vulnerabilidad amplia en modelos de última generación.

Estas conclusiones implican que la comunidad no debe suponer que la “caja negra” de un proveedor protege frente a ataques diseñados con recursos limitados; la transferencia sigue siendo un vector práctico para adversarios con acceso únicamente a modelos sustitutos.

Image Hijacks: controlar el comportamiento en tiempo de inferencia

El trabajo "Image Hijacks" (arXiv:2309.00236) formalizó y demostró ataques que usan imágenes adversariales para controlar la salida de VLMs en tiempo real. Su aporte técnico clave es el algoritmo de emparejamiento de comportamiento y, en particular, el método de emparejamiento de indicaciones:

Se entrena una perturbación visual para que la representación extraída por el modelo, combinada con un prompt genérico, reproduzca exactamente la salida objetivo asociada a una indicación textual (por ejemplo, hacer que la descripción de la imagen afirme una falsedad).
Los autores mostraron tasas de éxito superiores al 80% contra LLaVA en cuatro tipos de ataque: imponer salidas adversarias, filtrar contexto, anular seguridad y convencer al modelo de afirmaciones falsas.
Las perturbaciones son pequeñas y el proceso puede automatizarse con datasets generales, no necesariamente relacionados con la indicación objetivo.

Conceptualmente, los image hijacks prueban que no solo las etiquetas o clasificaciones pueden ser manipuladas, sino el comportamiento generativo y la lógica de respuesta del sistema.

Evaluación práctica y defensa en sistemas comerciales: lecciones desde Gemini

El informe "Lessons from Defending Gemini Against Indirect Prompt Injections" (arXiv:2505.14534) describe la estrategia de Google DeepMind para evaluar y robustecer Gemini frente a inyecciones de instrucciones contenidas en datos no confiables. Puntos de interés:

Se emplea un marco de evaluación adversarial continuo que ejecuta técnicas adaptativas contra versiones pasadas y futuras del modelo, simulando un adversario sofisticado.
Los riesgos se centran especialmente en flujos donde Gemini llama a herramientas o procesa datos provenientes de terceros (APIs, documentos de usuarios externos), lo que requiere un aislamiento y políticas de acceso cuidadosas.
Las lecciones incluyen la utilidad de pruebas adversariales automatizadas, la necesidad de limitaciones de permisos por defecto (principio de menor privilegio), y la implementación de detección y mitigación de patrones de inyección indirecta.

Este reporte ilustra cómo un ciclo iterativo de evaluación/defensa acelera el endurecimiento del modelo contra ataques prácticos en entornos productivos.

Comparación técnica y síntesis cross‑papers

Comparando los trabajos se observan convergencias y diferencias que informan prioridades defensivas:

Origen de la señal adversaria: IJA oculta instrucciones dentro de la imagen (señal simbólica codificada); los papers de perturbaciones y hijacks manipulan la representación visual para inducir errores en la interpretación.
Eficacia y eficiencia: IJA reporta >90% de éxito con ~3 consultas en modelos comerciales, lo que resalta el peligro de ataques de baja consulta; image hijacks y perturbaciones ofrecen altas tasas de éxito (>80%) pero pueden requerir más coste de diseño.
Transferibilidad: perturbaciones y algunos hijacks muestran alta transferencia entre modelos (abiertos → propietarios), lo que facilita el ataque desde modelos sustitutos; IJA añade la ventaja de camuflar instrucciones en aspectos que pasan desapercibidos por pipelines de moderación textual.
Automatización: todos los enfoques son automatizables —desde generación de sufijos adversariales hasta optimización iterativa de plantillas— lo que reduce la barrera de entrada para atacantes con recursos moderados.

Implicaciones para despliegues y gestión de riesgo

Las evidencias reunidas indican que la exposición real de un servicio multimodal depende tanto de su arquitectura interna como de las políticas de integración de herramientas y datos externos. Las principales amenazas prácticas incluyen:

Exfiltración o ejecución de instrucciones no autorizadas a través de entradas visuales aparentemente inocuas.
Generación de contenido peligroso o violatorio de políticas por manipulación visual.
Falsificación sistemática de descripciones o de respuestas a preguntas visuales, afectando integridad de información y confianza del usuario.

Por tanto, la mitigación no puede limitarse a filtros textuales: debe ser multimodal, proactiva y orientada a ciclo de vida del producto.

Contramedidas recomendadas

Basado en los mecanismos de ataque y en prácticas recogidas en el dossier, proponemos un conjunto de medidas prácticas y técnicas:

Detección de esteganografía y análisis estadístico de LSB: añadir checks que detecten anomalías en los bits menos significativos y en la distribución de ruido de la imagen.
Sanitización multimodal y normalización robusta: reescalar, recomprimir o aplicar transformaciones aleatorias (crop/rotate/blur controlado) que destruyan perturbaciones frágiles sin degradar utilidad; combinar con extracción de características robustas (p. ej., modelos preprocesados entrenados adversarialmente).
Ensembles y verificación cruzada: validar la interpretación visual usando múltiples encoders o modelos sustitutos internos; discrepancias elevadas deben activar revisión humana o política de rechazo.
Adversarial training y data augmentation multimodal: incluir perturbaciones transferibles y ejemplos de image‑hijack en el entrenamiento/afinamiento para endurecer representaciones.
Políticas de permisos y sandboxing para herramientas: limitar el acceso a datos sensibles por defecto, auditar resultados de herramientas llamadas y registrar trazabilidad de inputs externos (lecciones tomadas desde la defensa de Gemini).
Límites de consulta y detección de comportamiento anómalo: mitigar ataques iterativos que optimizan plantillas o sufijos adversariales mediante detección de patrones de consulta y rate limiting.
Evaluación adversarial continua: integrar un framework de pruebas adversariales automatizadas que pruebe variantes de ataques (esteganografía, perturbaciones universales, hijacks) sobre cada nueva versión del modelo.

Preguntas abiertas y direcciones de investigación

Los trabajos revisados abren varias líneas críticas para investigación futura:

¿Qué transformaciones de preprocesado balancean mejor la eliminación de señales adversariales sin degradar el rendimiento humano‑útil?
¿Cómo diseñar detectores multimodales de inyección de instrucciones que mantengan baja tasa de falsos positivos en despliegues reales?
¿Es viable un estándar de “provenance” visual que permita verificar la integridad y procedencia de imágenes usadas como entrada?
¿Qué garantías formales pueden obtenerse para modelos que realizan fusión de señales multimodales en presencia de entradas maliciosas?

Conclusión

La línea entre capacidades útiles y vectores de ataque se estrecha a medida que los modelos multimodales se hacen más potentes y más integrados en flujos de trabajo productivos. Los estudios sobre IJA, perturbaciones transferibles e image hijacks demuestran que los atacantes pueden controlar, engañar o inducir comportamientos indeseados tanto con señales sutiles incrustadas como con perturbaciones que manipulan la representación visual. La respuesta debe ser igualmente multimodal y de múltiples capas: detección técnica (p. ej., contra esteganografía), robustecimiento por entrenamiento, defensas arquitectónicas (sandboxing y verificación cruzada) y un programa continuo de evaluación adversarial. Para los equipos de ingeniería que despliegan VLMs, la conclusión práctica es clara: asumir que la entrada visual puede ser adversarial por diseño y construir controles que lo mitiguen antes de que el sistema actúe sobre datos no confiables.