Ir al contenido principal

Leyes de escala para modelos de lenguaje con arquitectura de bucle | Comparación de eficiencia entre profundidad y recurrencia en Transformers | Optimización de modelos de lenguaje mediante arquitectura recursiva de capas compartidas

Looped Transformerstransformers en bucle Indiascaling laws Indialeyes de escala Indiarecurrence Indiarecurrencia Indiacomputational efficiency India

Abstract

PROBLEMA: Existe un debate creciente sobre si es más eficiente aumentar el número de capas únicas en un Transformer (profundidad) o reutilizar capas mediante recurrencia (bucles). SOLUCIÓN: Este estudio establece las primeras leyes de escala de "Iso-Profundidad" para determinar matemáticamente el valor real de cada paso recursivo en comparación con añadir nuevos parámetros. METODOLOGÍA: Se entrenaron cientos de modelos variando tanto la profundidad física como el número de iteraciones recurrentes, midiendo la pérdida de validación en relación con el presupuesto computacional (FLOPs). RESULTADOS: Se descubrió que la recurrencia ofrece beneficios decrecientes después de cierto punto, pero puede ser drásticamente más eficiente en términos de memoria que los modelos puramente profundos para ciertas tareas de razonamiento. RELEVANCIA: Proporciona una guía teórica y práctica para diseñar modelos más compactos y potentes que puedan ejecutarse en hardware limitado sin perder capacidades de razonamiento.

Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h