18 de junio de 2026

Zone of Proximal Policy Optimization: Profesores mediante Prompts en lugar de Gradientes | Alineación eficiente de LLMs mediante guías contextuales | Método para optimizar políticas de agentes IA usando modelos maestros como guías de prompt

Proximal Policy OptimizationPPOprompting distalalineación de modelos de lenguajeRLHFdestilación de conocimientosNVIDIA

Abstract

PROBLEMA: Los métodos tradicionales de destilación de políticas en LLMs suelen depender de la transferencia de gradientes desde un modelo profesor a uno estudiante, lo cual es computacionalmente costoso y a menudo limitado por la arquitectura de los modelos. SOLUCIÓN: El paper introduce 'Zone of Proximal Policy Optimization' (ZPPO), un marco que integra la guía del profesor directamente en los prompts durante el entrenamiento de RL en lugar de computar gradientes complejos. METODOLOGÍA: Utilizan una jerarquía de prompts donde el modelo superior genera 'andamios' cognitivos que delimitan el espacio de búsqueda para el modelo en entrenamiento, optimizando la política dentro de una 'zona de desarrollo' manejable. RESULTADOS: Los experimentos demuestran que ZPPO supera a PPO estándar en tareas de razonamiento lógico y programación, reduciendo el tiempo de convergencia en un 30% sin necesidad de acceder a los pesos internos del modelo profesor. RELEVANCIA: Este enfoque es crucial para el desarrollo de sistemas agentes más eficientes donde modelos pequeños aprenden de modelos frontera mediante interacción semántica.

Leer paper original

Volver a Papers IA