Nueva técnica hace que los modelos de IA sean más ligeros y rápidos mientras aún están aprendiendo
Investigadores del MIT CSAIL, en colaboración con otras instituciones, han desarrollado CompreSSM, una técnica que comprime modelos de IA durante el entrenamiento utilizando teoría de control para eliminar componentes innecesarios. Esta aproximación identifica tempranamente las partes prescindibles mediante valores singulares de Hankel, permitiendo acelerar el entrenamiento hasta 4 veces sin perder rendimiento. Los modelos comprimidos mantienen la precisión de los grandes mientras reducen drásticamente los costes computacionales. El método es especialmente efectivo en modelos de espacio de estados como Mamba, usados en procesamiento de lenguaje, audio y robótica, ofreciendo una alternativa eficiente a la poda post-entrenamiento o destilación de conocimiento.