Hugging Face

RL Agente: Token-In, Token-Out Bien Hecho

1 de junio de 2026

Este artículo aborda el desafío de entrenar modelos de lenguaje grandes (LLM) con aprendizaje por refuerzo (RL) cuando se incorporan herramientas, lo que a menudo lleva a errores sutiles debido a la violación del invariante "Token-In, Token-Out" (TITO). Se explica cómo la re-tokenización de las conversaciones puede romper la señal de gradiente en RL. La solución propuesta es seguir la regla de nunca re-codificar tokens ya decodificados, lo que simplifica el bucle de entrenamiento y garantiza la precisión del gradiente. Se destaca que la mayoría de las plantillas de chat modernas ya cumplen con la propiedad de preservación de prefijos necesaria para esta aproximación.

RL AgenteToken-In Token-OutTITOLLMaprendizaje por refuerzoHugging Faceplantillas de chat

Leer noticia original

Volver a Noticias IA

WhatsApp con nuestro agente IAEscríbenos y te atiende nuestro agente IA de WhatsApp. Es una demo real: el mismo que montamos para clientes.Llama y habla con nuestra IA de vozLlámanos al 941 72 25 19 y resuelve tus dudas por teléfono hablando con nuestra IA de voz. Otra demo real, funcionando.