25 de marzo de 2026

SpecEyes: Aceleración de agentes multimodales mediante planificación especulativa | Cómo reducir la latencia en agentes de visión y lenguaje | Optimización de la eficiencia en modelos de lenguaje visuales agénticos

Speculative PlanningPlanificación especulativaMultimodal LLMAgentes de IAPercepción visual eficienteInferencia de baja latenciaAgentes autónomos

Abstract

PROBLEMA: Los agentes basados en Modelos de Lenguaje Grande Multimodales (MLLM) sufren de una latencia prohibitiva debido a los procesos secuenciales de percepción de imágenes, razonamiento y planificación de acciones. Esta lentitud impide su uso en aplicaciones de tiempo real o interactivas. SOLUCIÓN: SpecEyes propone un marco de trabajo basado en la Percepción y Planificación Especulativa que desacopla la percepción pesada del flujo de decisión. Utiliza un modelo menor para 'especular' resultados perceptuales y planes de acción, que luego son validados en paralelo por el MLLM principal. METODOLOGÍA: El sistema integra un predictor de baja latencia y un verificador robusto, optimizando el uso de KV cache y minimizando el procesamiento redundante de tokens visuales. RESULTADOS: Logra una aceleración de hasta 2.5x en tareas de agentes multimodales sin degradar la precisión del plan final, superando a los métodos tradicionales de inferencia autorregresiva. RELEVANCIA: Es un avance crítico para desplegar agentes inteligentes en dispositivos móviles o robots donde la respuesta inmediata es obligatoria.

Leer paper original

Volver a Papers IA