ThinkJEPA: Potenciando modelos de mundo latentes con razonamiento visual | Integración de JEPA y VLM para inferencia de alto nivel | Arquitecturas predictivas de estados con razonamiento semántico incorporado
Abstract
PROBLEMA: Los modelos de mundo latentes como JEPA son excelentes para predecir dinámicas visuales, pero carecen de la capacidad de razonamiento simbólico de alto nivel que poseen los Vision-Language Models (VLM). Esto limita su uso en tareas que requieren comprender 'por qué' ocurren ciertos eventos visuales. SOLUCIÓN: ThinkJEPA fusiona las arquitecturas predictivas latentes con motores de razonamiento visual-lingüístico. El modelo no solo predice el próximo estado latente de una escena, sino que genera una justificación interna o 'pensamiento' que guía la predicción. METODOLOGÍA: Implementa un puente entre el espacio de embedding de JEPA y el decodificador de un VLM, entrenado con objetivos duales de consistencia visual y coherencia en el razonamiento. RESULTADOS: El modelo muestra una capacidad superior en tareas de planificación compleja y predicción de eventos contrafactuales, superando a las versiones estándar de JEPA en benchmarks de razonamiento causal en video. RELEVANCIA: Representa un paso adelante hacia modelos de mundo que pueden 'pensar' antes de predecir, integrando intuición física con lógica conceptual.