23 de marzo de 2026

Breaking the Capability Ceiling of LLM Post-Training by Reintroducing Markov States | Superando los límites del post-entrenamiento en LLMs mediante estados de Markov | Técnica para optimizar la arquitectura de modelos de lenguaje grandes tras el entrenamiento inicial

Markov Statesestados de MarkovPost-Training LLMpost-entrenamientoInference Efficiencyeficiencia de inferenciaModel Scalingescalado de modelos

Abstract

PROBLEMA: Existe un 'techo de capacidad' aparente en el post-entrenamiento de los LLMs (como el ajuste de instrucciones), donde las mejoras en el rendimiento se estancan a pesar de usar más datos o computación. SOLUCIÓN: Este paper propone reintroducir Estados de Markov en la arquitectura de post-entrenamiento para permitir que el modelo condense información histórica de manera más estructurada, liberando capacidades de razonamiento latentes. METODOLOGÍA: Integran una capa de transición de estados que mapea las representaciones del transformer a un espacio de estados finito, facilitando una actualización de memoria más coherente. RESULTADOS: El método logra romper el estancamiento de rendimiento en tareas de razonamiento lógico y programación, superando a los métodos de fine-tuning tradicionales en un 15%. RELEVANCIA: Redefine cómo entendemos el flujo de información dentro de las redes de atención para optimizar la fase final de despliegue de modelos.

Leer paper original

Volver a Papers IA