28 de mayo de 2026

ProRL: Aprendizaje por refuerzo para recomendación proactiva mediante gradiente rectificado | Estabilización de agentes de recomendación usando gradientes de política | Algoritmo para mejorar la precisión de sugerencias automáticas en IA

Reinforcement Learningaprendizaje por refuerzoproactive recommendationrecomendación proactivaPolicy Gradientgradiente de políticasistemas de recomendación AI

Abstract

PROBLEMA: Los sistemas de recomendación proactivos suelen fallar al estimar el impacto de acciones futuras debido a la alta varianza en los gradientes de política, lo que lleva a sugerencias irrelevantes. SOLUCIÓN: ProRL introduce una estimación de gradiente de política rectificada que estabiliza el aprendizaje proactivo alineando las recompensas de corto y largo plazo. METODOLOGÍA: El equipo de Fudan University implementó un estimador de varianza reducida dentro de una arquitectura de recomendación basada en estados latentes, probándolo en benchmarks de e-commerce y contenido digital. RESULTADOS: ProRL superó a los métodos tradicionales de RL en un 15% en métricas de satisfacción del usuario (CTR y retención) bajo condiciones de baja señal de feedback. RELEVANCIA: Optimiza la capacidad de los agentes para anticipar necesidades del usuario sin esperar peticiones explícitas, mejorando la interacción proactiva.

Leer paper original

Volver a Papers IA