Inferencia paralela por capas mediante correcciones estructuradas de Newton | SNLP: Rompiendo la secuencialidad de las capas en Transformers | Aceleración matemática de la inferencia en modelos de lenguaje grandes
Abstract
PROBLEMA: La naturaleza secuencial (capa por capa) de la inferencia en Transformers crea un cuello de botella que impide el aprovechamiento completo de sistemas multi-GPU altamente paralelos. SOLUCIÓN: Proponen SNLP (Structured Newton Layer-Parallel), un algoritmo que reformula la inferencia como un sistema de ecuaciones que puede resolverse mediante correcciones de tipo Newton de forma paralela en las capas. METODOLOGÍA: Utilizan aproximaciones matriciales estructuradas para resolver el paso de inferencia de múltiples capas simultáneamente, corrigiendo el error residual de forma iterativa y rápida. RESULTADOS: Aceleran la inferencia en modelos de gran escala hasta en un 2-3x en configuraciones de hardware específicas sin comprometer la fidelidad de los pesos del modelo. RELEVANCIA: Una ruptura en el paradigma secuencial de los Transformers que podría cambiar cómo se diseñan los chips para IA.