BadWorld: Vulnerabilidades y ataques adversarios en modelos de mundo | Análisis de riesgos de seguridad en la percepción física de agentes autónomos | Cómo proteger la integridad de los modelos que simulan la realidad física en IA
Abstract
PROBLEMA: A medida que los agentes autónomos dependen más de modelos de mundo para predecir consecuencias físicas, surge la duda de si estos modelos pueden ser engañados para que generen alucinaciones peligrosas. SOLUCIÓN: BadWorld es un estudio exhaustivo que identifica vulnerabilidades críticas en modelos de mundo, demostrando cómo pequeñas perturbaciones en la entrada sensorial pueden desviar catastróficamente la visión de "realidad" del agente. METODOLOGÍA: Los investigadores aplicaron técnicas de optimización adversaria para inyectar ruido imperceptible que induce al modelo de mundo a ignorar obstáculos u objetivos críticos en simulaciones de navegación. RESULTADOS: El estudio revela que la mayoría de los modelos de mundo actuales carecen de mecanismos de defensa robustos, siendo susceptibles de manipulación remota que podría causar daños físicos reales en el hardware. RELEVANCIA: Este trabajo es un llamado a la acción para priorizar la seguridad en el diseño de modelos de inteligencia artificial física antes de su implementación masiva.