27 de junio de 2026

Alucinaciones en Modelos de Mundo: Predicción y Prevención | Cómo evitar trayectorias falsas en agentes de aprendizaje por refuerzo | Seguridad y fiabilidad en simulaciones de modelos de mundo para robótica

World ModelsModelos de MundoHallucination preventionprevención de alucinacionesReinforcement Learningerror de predicciónLatent Dynamics

Abstract

PROBLEMA: Los modelos de mundo (World Models) utilizados en aprendizaje por refuerzo a menudo generan trayectorias imaginarias que no se corresponden con la realidad, fenómeno conocido como alucinación, lo que lleva a políticas de control subóptimas o peligrosas. SOLUCIÓN: El paper demuestra que las alucinaciones no son fallos aleatorios, sino eventos predecibles basados en la incertidumbre del modelo y la divergencia de la distribución de entrenamiento. Proponen un mecanismo de detección proactiva para evitar que el agente confíe en estados imaginarios inestables. METODOLOGÍA: Utilizan una arquitectura basada en modelos de estados espacio-latentes (SSM) evaluando la varianza de las predicciones y el error de reconstrucción en entornos benchmark complejos. RESULTADOS: Logran reducir drásticamente las tasas de fallo en agentes robóticos al filtrar estados con alta probabilidad de alucinación, superando el estado del arte en estabilidad de entrenamiento. RELEVANCIA: Fundamental para el despliegue seguro de agentes en entornos críticos donde la simulación debe ser fiel a la física real.

Leer paper original

Volver a Papers IA