Nemotron-Cascade 2: Post-entrenamiento de LLMs con RL en cascada | Optimización avanzada de modelos de lenguaje mediante destilación multi-dominio | Método de NVIDIA para mejorar la precisión de LLMs tras el entrenamiento base
Abstract
PROBLEMA: El post-entrenamiento de LLMs a gran escala suele ser ineficiente cuando se intenta equilibrar el rendimiento en múltiples dominios específicos simultáneamente. SOLUCIÓN: NVIDIA presenta Nemotron-Cascade 2, utilizando un método de Reinforcement Learning en cascada (Cascade RL) y una técnica de destilación on-policy multi-dominio. METODOLOGÍA: El sistema refina el modelo base aplicando recompensas estructuradas en etapas y destilando conocimiento de modelos expertos hacia el modelo objetivo durante el proceso de optimización activa. RESULTADOS: El modelo muestra una mejora notable en razonamiento y adherencia a instrucciones en diversos benchmarks comparado con versiones anteriores. RELEVANCIA: Propone un nuevo estándar para el refinamiento de modelos de lenguaje de alta precisión.