KnowRL: Potenciando el razonamiento de LLMs mediante Aprendizaje por Refuerzo con Guía de Conocimiento Mínimo-Suficiente | Cómo mejorar la lógica de modelos de lenguaje con información estructurada externa | Método de entrenamiento para agentes de razonamiento eficiente y veraz
Abstract
PROBLEMA: Los modelos de lenguaje grandes (LLMs) a menudo fallan en tareas de razonamiento complejo debido a la falta de una guía estructurada durante el aprendizaje por refuerzo, lo que lleva a procesos de optimización ineficientes o alucinaciones lógicas. SOLUCIÓN: El paper propone KnowRL, un marco de trabajo que potencia el razonamiento de los LLM mediante el uso de "conocimiento mínimo-suficiente" como guía durante el Reinforcement Learning. Esta técnica identifica los fragmentos exactos de información necesarios para resolver un paso lógico sin sobrecargar al modelo con datos irrelevantes. METODOLOGÍA: Utilizan una arquitectura de retroalimentación donde el conocimiento estructurado (grafos o reglas) informa la función de recompensa del agente de RL, comparándolo con modelos estándar en benchmarks de razonamiento multietapa. RESULTADOS: KnowRL supera significativamente a los métodos de RL tradicionales en precisión lógica y eficiencia de datos, logrando mejores resultados con menos pasos de entrenamiento. RELEVANCIA: Es fundamental para el desarrollo de agentes que deben tomar decisiones basadas en reglas externas o bases de conocimiento dinámicas con alta veracidad.