DelTA: Asignación Discriminativa de Crédito por Token para RL con Recompensas Verificables | Mejorando la precisión de LLMs en razonamiento mediante feedback a nivel de token | Optimización de entrenamiento de agentes IA en tareas de paso a paso con validación objetiva
Abstract
PROBLEMA: El Aprendizaje por Refuerzo a partir de Feedback Humano (RLHF) a menudo sufre de una asignación de crédito ineficiente, donde una recompensa única al final de una secuencia de tokens no identifica qué pasos específicos contribuyeron al éxito o al fracaso. Esto es especialmente crítico en tareas de razonamiento complejo donde un solo error intermedio invalida todo el resultado. SOLUCIÓN: Los autores presentan DelTA (Discriminative Token Credit Assignment), un método que descompone las recompensas finales en señales a nivel de token utilizando un enfoque discriminativo. El sistema entrena un modelo para distinguir entre trayectorias correctas e incorrectas basándose en sub-secuencias, permitiendo una actualización de gradiente mucho más precisa y dirigida. METODOLOGÍA: Se implementa sobre arquitecturas Transformer estándar, utilizando entornos de recompensas verificables (como código o matemáticas) para generar datos de entrenamiento donde la veracidad es objetiva. Comparan DelTA contra PPO y otros algoritmos de RL tradicionales. RESULTADOS: Los experimentos demuestran que DelTA acelera significativamente la convergencia en benchmarks de razonamiento matemático y generación de código, superando a los modelos base en hasta un 15% en precisión final. RELEVANCIA: Este trabajo es fundamental para mejorar la eficiencia del entrenamiento de agentes que deben realizar razonamiento multi-paso, reduciendo la dependencia de grandes volúmenes de datos etiquetados manualmente.