Predicción y prevención de alucinaciones en modelos de mundo | Cómo evitar errores de imaginación en agentes robóticos | Seguridad en modelos predictivos para control autónomo
Abstract
PROBLEMA: Los modelos de mundo sufren alucinaciones donde el agente imagina estados futuros físicamente imposibles, lo que lleva a políticas de control catastróficas en el mundo real. SOLUCIÓN: El estudio demuestra que estas alucinaciones no son aleatorias, sino predecibles y, por lo tanto, prevenibles mediante el monitoreo de la divergencia en el espacio latente. METODOLOGÍA: Utilizan un marco de trabajo basado en la cuantificación de la incertidumbre epistémica para identificar cuándo el modelo sale de su distribución de entrenamiento durante la planificación. RESULTADOS: Logran reducir significativamente las tasas de fallo en entornos de control continuo al filtrar trayectorias alucinadas antes de su ejecución. RELEVANCIA: Es fundamental para la seguridad en robótica y sistemas críticos que dependen de modelos de mundo para la toma de decisiones.