9 de marzo de 2026

Penguin-VL: Maximizando la Eficiencia de VLMs mediante Codificadores de Visión basados en LLM

VLM EfficiencyVision EncodersPenguin-VLResource OptimizationWorld Modeling

Abstract

Penguin-VL investiga los límites de eficiencia en Modelos de Lenguaje de Visión (VLM) utilizando codificadores de visión basados en LLMs pre-entrenados en lugar de los tradicionales CLIP o ViT. El estudio revela que las representaciones visuales extraídas de arquitecturas diseñadas originalmente para texto pueden ser sorprendentemente eficientes para modelar la dinámica de mundo si se alinean correctamente. El paper propone un método de destilación que reduce drásticamente el número de parámetros activos durante la inferencia visual sin sacrificar la comprensión espacial. Esto tiene aplicaciones directas en el desarrollo de agentes que deben procesar flujos de vídeo continuos para la predicción de trayectorias u operaciones autónomas, donde la eficiencia energética y la velocidad de respuesta son críticas.

Leer paper original

Volver a Papers IA