Hacia el Entendimiento Multimodal Continuo: Dataset y Baseline Agéntico para un Aprendizaje Permanente
Abstract
El trabajo aborda el problema del entendimiento continuo (Lifelong Understanding) en sistemas multimodales. Los investigadores presentan un nuevo dataset masivo y un conjunto de baselines agénticos centrados en la capacidad de un modelo para retener y actualizar conocimiento a partir de flujos continuos de datos visuales y textuales. En lugar de procesar lotes estáticos, el agente debe navegar una "vida" de datos donde la información recibida en el tiempo T+10 puede contradecir o refinar lo aprendido en el tiempo T. El paper describe una arquitectura agéntica de referencia que utiliza memorias a largo y corto plazo para gestionar esta evolución de contexto. Las pruebas realizadas demuestran que los modelos actuales sufren de 'olvido catastrófico' o confusión de contexto cuando se enfrentan a flujos de datos prolongados. Este trabajo es fundamental para el desarrollo de asistentes personales IA y sistemas de monitoreo autónomo que requieren una comprensión coherente y evolutiva de su entorno de trabajo durante periodos de tiempo extendidos.