2 de abril de 2026

Universal YOCO para un escalado de profundidad eficiente en modelos de lenguaje | Cómo escalar LLMs profundamente reduciendo el uso de memoria KV-cache | Arquitectura YOCO para inferencia de alto rendimiento y bajo consumo de recursos

YOCO architectureescalado de profundidaddepth scalingeficiencia de memoriatransformers optimizadosinferencia de LLMarquitectura neuronal

Abstract

PROBLEMA: El escalado de la profundidad en los transformadores tradicionales (Transformers) conlleva un aumento prohibitivo en el uso de memoria KV-cache y latencia de inferencia, limitando el rendimiento en secuencias largas. SOLUCIÓN: Se propone 'Universal YOCO' (You Only Cache Once), una arquitectura que permite escalar la profundidad del modelo manteniendo una huella de memoria constante para la caché de llaves y valores (KV), permitiendo procesar contextos masivos de forma eficiente. METODOLOGÍA: Los investigadores modifican el flujo de atención para que solo una fracción de las capas necesite almacenar estados, utilizando técnicas de destilación y re-parametrización. RESULTADOS: Los experimentos muestran que YOCO iguala el rendimiento de los transformadores estándar mientras utiliza hasta 8 veces menos memoria durante la inferencia en modelos de gran escala. RELEVANCIA: Clave para el desarrollo de LLMs de próxima generación que requieren razonamiento profundo y contextos extendidos sin los costos de infraestructura actuales.

Leer paper original

Volver a Papers IA