7 de mayo de 2026

Cuándo pensar y cuándo hablar: Aprendizaje de políticas de revelación para el razonamiento de LLMs | Cómo optimizar la exposición de la cadena de pensamiento en modelos de IA | Estrategias para equilibrar razonamiento interno y eficiencia de salida en lenguaje natural

Disclosure PoliciesPolíticas de revelaciónChain-of-ThoughtCadena de pensamiento reasoningLLM efficiencyRazonamiento adaptativoTransparency vs Efficiency

Abstract

PROBLEMA: No todas las consultas a un LLM requieren un razonamiento extenso (Chain-of-Thought). Mostrar siempre el pensamiento interno consume tokens innecesarios y puede confundir al usuario en tareas simples. SOLUCIÓN: El estudio investiga cómo aprender "políticas de revelación" que determinen cuándo el modelo debe pensar internamente y cuándo debe mostrar ese pensamiento o ir directo a la respuesta. METODOLOGÍA: Entrenaron modelos mediante aprendizaje por refuerzo para optimizar tanto la precisión de la respuesta como la eficiencia de la comunicación (tokens utilizados). RESULTADOS: Los modelos con políticas aprendidas mantienen la alta precisión de los modelos "co-thought" pero reducen significativamente el número de tokens de salida en tareas triviales. RELEVANCIA: Es vital para el despliegue comercial de modelos de razonamiento (como la serie o1), donde la gestión de la latencia y el coste por token es crítica.

Leer paper original

Volver a Papers IA