Ir al contenido principalSaltar al contenido

guided_self_evolving_llms_with_minimal_human_supervision

Self-EvolvingLLMSelf-SupervisionSynthetic DataDistillationBigBench

Abstract

Este trabajo de Tencent presenta LLMs que se autoevolucionan mediante retroalimentación sintética generada internamente, requiriendo mínima supervisión humana. El proceso incluye generación de datos de razonamiento, autoevaluación con rubricas aprendidas y destilación iterativa, elevando rendimiento en 15% en BigBench Hard sin datos humanos nuevos. Arquitectura usa reward models autoentrenados; resultados: de base 70B a experto equivalente. Aplicaciones en adaptación continua; limitaciones: riesgo de deriva de modo en iteraciones largas.

Escríbenos por WhatsApp
Asesor Virtual 24h - Abre el chat para consultasAsesor Virtual 24h