17 de junio de 2026

Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients | Alineación de modelos mediante prompts del profesor en lugar de gradientes | Nueva técnica de refuerzo para destilación eficiente de modelos de lenguaje

Proximal Policy OptimizationPPOprompt-based learningaprendizaje por prompts teacher-studentRLAIFdestilación de políticasNVIDIA AI Research

Abstract

PROBLEMA: La destilación de conocimientos de modelos grandes (profesores) a pequeños (estudiantes) mediante gradientes suele ser inestable, costosa y limitada por la arquitectura del modelo destino. SOLUCIÓN: NVIDIA propone ZPPO (Zone of Proximal Policy Optimization), un paradigma donde el conocimiento del profesor se transfiere mediante prompts dinámicos y feedback en el espacio de acciones, en lugar de flujos de gradientes directos. METODOLOGÍA: Se implementa un ciclo de RL donde el 'estudiante' recibe guías contextuales del 'profesor' que delimitan una zona de optimización segura, evitando divergencias catastróficas durante el entrenamiento. RESULTADOS: ZPPO supera al PPO tradicional en estabilidad y rendimiento final en diversas tareas de razonamiento, permitiendo que modelos ligeros hereden capacidades de razonamiento abstracto de modelos mucho más grandes. RELEVANCIA: Este enfoque revoluciona la alineación de modelos pequeños para dispositivos locales, permitiendo una personalización rápida mediante feedback de IA sin necesidad de acceder a los pesos internos de modelos propietarios.

Leer paper original

Volver a Papers IA