Un experimento con atención: comparación entre atención completa y estado de contexto comprimido en modelos de lenguaje
Este artículo presenta un experimento que compara la atención completa (Transformer-style) con un modelo de estado de contexto comprimido al evaluar su capacidad para retener instrucciones débiles en secuencias largas. Los resultados muestran que la atención completa supera al modelo comprimido en calidad (pérdida de validación y precisión) y velocidad de entrenamiento, especialmente a medida que aumenta la longitud del contexto. El autor concluye que la compresión ingenua no mejora la retención de reglas y que futuras investigaciones deben centrarse en una compresión más cuidadosa y mecanismos de memoria más selectivos.
atenciónmodelos de lenguajecontexto comprimidoTransformerrendimiento de modelosexperimentación de IA
Leer noticia original