9 de abril de 2026

Un frame por token: Modelado de mundo generativo eficiente vía deltas | Cómo reducir el coste de los modelos de mundo usando diferencias temporales | Simulación de mundo de alta velocidad mediante predicción de cambios latentes

World Modelingmodelado de mundoDelta Tokenstokens de diferenciagenerative world modelseficiencia computacionalsimulación 4D

Abstract

PROBLEMA: La generación de videos y simulaciones de mundo cuadro a cuadro consume una cantidad masiva de tokens y recursos computacionales, lo que limita la escala y la velocidad de los modelos actuales. SOLUCIÓN: Los autores proponen representar cada frame como un 'delta token' que solo codifica los cambios respecto al frame anterior, permitiendo que 'un frame valga un token' en términos de presupuesto computacional. METODOLOGÍA: Implementan una arquitectura de transformer autorregresivo optimizada para predecir estas diferencias temporales en latentes comprimidos. RESULTADOS: El modelo logra una eficiencia 10 veces superior a los métodos tradicionales de predicción de frames completos sin perder fidelidad visual ni coherencia física. RELEVANCIA: Este avance es crucial para crear modelos de mundo ligeros que puedan ejecutarse en tiempo real para robótica o simulaciones espaciales complejas.

Leer paper original

Volver a Papers IA