RL Agente: Token-In, Token-Out Bien Hecho
Este artículo aborda el desafío de entrenar modelos de lenguaje grandes (LLM) con aprendizaje por refuerzo (RL) cuando se incorporan herramientas, lo que a menudo lleva a errores sutiles debido a la violación del invariante "Token-In, Token-Out" (TITO). Se explica cómo la re-tokenización de las conversaciones puede romper la señal de gradiente en RL. La solución propuesta es seguir la regla de nunca re-codificar tokens ya decodificados, lo que simplifica el bucle de entrenamiento y garantiza la precisión del gradiente. Se destaca que la mayoría de las plantillas de chat modernas ya cumplen con la propiedad de preservación de prefijos necesaria para esta aproximación.
RL AgenteToken-In Token-OutTITOLLMaprendizaje por refuerzoHugging Faceplantillas de chat
Leer noticia original