28 de junio de 2026

Detección y prevención de alucinaciones en modelos de mundo | Por qué fallan los agentes en sus simulaciones internas y cómo evitarlo | Técnicas de fiabilidad para la planificación de agentes de aprendizaje por refuerzo

Hallucinations in World ModelsAgent Reliabilityalucinaciones en modelos de mundoplanificación robusta de agentessafety in AI agentsseguridad en agentes de IAverificación de estados latentes

Abstract

PROBLEMA: Las alucinaciones en los modelos de mundo (donde el modelo predice estados futuros físicamente imposibles) son una causa principal de fallos catastróficos en agentes de aprendizaje por refuerzo. SOLUCIÓN: Los autores demuestran que estas alucinaciones no son aleatorias, sino predecibles mediante el análisis de la varianza del decodificador y la densidad de los datos de entrenamiento en el espacio latente, proponiendo un mecanismo de prevención activa. METODOLOGÍA: Desarrollan un marco teórico para identificar estados alucinatorios y una técnica de 'conciencia de incertidumbre' que impide al agente confiar en trayectorias imaginarias ruidosas durante la planificación. RESULTADOS: Los experimentos en diversos entornos de control complejo muestran una reducción del 40% en fallos de planificación y una mejora significativa en la seguridad de los agentes sin sacrificar eficiencia. RELEVANCIA: Este trabajo es crucial para el despliegue de sistemas agénticos en el mundo real donde la veracidad de la simulación interna del modelo es vital para la toma de decisiones.

Leer paper original

Volver a Papers IA