23 de mayo de 2026

DelTA: Asignación de Crédito por Token para Aprendizaje por Refuerzo con Recompensas Verificables | Cómo identificar pasos correctos en cadenas de razonamiento de IA | Optimización de entrenamiento de LLMs mediante RL discriminativo a nivel de token

Credit Assignmentasignación de créditoReinforcement Learningaprendizaje por refuerzoverifiable rewardsrazonamiento lógicoLLM reasoning

Abstract

PROBLEMA: En el entrenamiento de LLMs mediante aprendizaje por refuerzo, las recompensas suelen ser escasas o se otorgan solo al final de la cadena de razonamiento, lo que dificulta identificar qué pasos específicos o tokens contribuyeron al éxito o al error. SOLUCIÓN: Se introduce DelTA (Discriminative Token Credit Assignment), un método que descompone las recompensas verificables y las asigna de manera discriminativa a nivel de token. Esto permite un ajuste mucho más fino de la política del modelo durante el proceso de pensamiento. METODOLOGÍA: El equipo utiliza un modelo de crítico discriminativo que evalúa la probabilidad de éxito de cada token intermedio en tareas matemáticas y de programación donde el resultado final es binario y verificable. RESULTADOS: DelTA mejora significativamente la eficiencia de la muestra en comparación con métodos tradicionales de RL como PPO, logrando mejores benchmarks en razonamiento complejo con menos datos de entrenamiento. RELEVANCIA: Mejora la interpretabilidad del razonamiento en LLMs y reduce las alucinaciones en procesos lógicos de múltiples pasos.

Leer paper original

Volver a Papers IA