Detección y prevención de alucinaciones en modelos de mundo | Por qué fallan los agentes en sus simulaciones internas y cómo evitarlo | Técnicas de fiabilidad para la planificación de agentes de aprendizaje por refuerzo
Abstract
PROBLEMA: Las alucinaciones en los modelos de mundo (donde el modelo predice estados futuros físicamente imposibles) son una causa principal de fallos catastróficos en agentes de aprendizaje por refuerzo. SOLUCIÓN: Los autores demuestran que estas alucinaciones no son aleatorias, sino predecibles mediante el análisis de la varianza del decodificador y la densidad de los datos de entrenamiento en el espacio latente, proponiendo un mecanismo de prevención activa. METODOLOGÍA: Desarrollan un marco teórico para identificar estados alucinatorios y una técnica de 'conciencia de incertidumbre' que impide al agente confiar en trayectorias imaginarias ruidosas durante la planificación. RESULTADOS: Los experimentos en diversos entornos de control complejo muestran una reducción del 40% en fallos de planificación y una mejora significativa en la seguridad de los agentes sin sacrificar eficiencia. RELEVANCIA: Este trabajo es crucial para el despliegue de sistemas agénticos en el mundo real donde la veracidad de la simulación interna del modelo es vital para la toma de decisiones.