2 de julio de 2026

Valdi: Modelos de mundo basados en difusión de valor para planificación | Cómo usar modelos de difusión para mejorar el aprendizaje por refuerzo | Planificación avanzada en IA mediante generación de estados futuros con difusión

Value Diffusiondifusión de valorWorld Models PBmodelos de mundo IAReinforcement Learning PBaprendizaje por refuerzoagentic planning PB

Abstract

PROBLEMA: Los modelos de mundo convencionales en Aprendizaje por Refuerzo (RL) tienen dificultades para modelar trayectorias de largo plazo y distribuciones de recompensa complejas o multimodales. SOLUCIÓN: Se propone Valdi (Value Diffusion World Models), que integra modelos de difusión directamente en el aprendizaje de funciones de valor y transiciones de estado para modelar el futuro de forma más rica. METODOLOGÍA: Valdi utiliza un proceso de difusión inversa para generar posibles estados futuros condicionados a acciones, capturando la incertidumbre del entorno de manera más precisa que los modelos deterministas. RESULTADOS: Supera a los modelos de mundo basados en RNN y Transformers en entornos con alta incertidumbre y tareas de planificación que requieren razonamiento espacial complejo. RELEVANCIA: Representa un avance importante para los agentes que deben operar en el mundo físico o digital, mejorando su capacidad de 'imaginar' consecuencias antes de actuar (look-ahead planning).

Leer paper original

Volver a Papers IA