Ir al contenido principal

MASQuant: Cuantización Adaptativa por Modalidad para la Optimización de Modelos Multimodales

QuantizationMultimodal LLMMASQuant激Efficiency激Inference Optimization激],resumen:

Abstract

MASQuant introduce una técnica de cuantización consciente de la modalidad (Modality-Aware Smoothing) específicamente diseñada para Modelos de Lenguaje Multimodales (MLLMs). El problema principal que aborda es la disparidad en la distribución de activaciones entre datos visuales y textuales, lo que suele causar una degradación significativa del rendimiento cuando se aplican métodos de cuantización uniformes (como Int8 o Int4). MASQuant emplea un suavizado diferencial que se adapta a las características estadísticas de cada modalidad, permitiendo comprimir el modelo drásticamente sin perder precisión en tareas de razonamiento visual complejo. Esto es crítico para el despliegue de sistemas agénticos en dispositivos con recursos limitados o para reducir la latencia en aplicaciones de predicción en tiempo real. La técnica de suavizado ayuda a mitigar los valores atípicos (outliers) en las activaciones, que son los principales responsables del error de cuantización.

Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h