guided_self_evolving_llms_with_minimal_human_supervision

Self-EvolvingLLMSelf-SupervisionSynthetic DataDistillationBigBench

Abstract

Este trabajo de Tencent presenta LLMs que se autoevolucionan mediante retroalimentación sintética generada internamente, requiriendo mínima supervisión humana. El proceso incluye generación de datos de razonamiento, autoevaluación con rubricas aprendidas y destilación iterativa, elevando rendimiento en 15% en BigBench Hard sin datos humanos nuevos. Arquitectura usa reward models autoentrenados; resultados: de base 70B a experto equivalente. Aplicaciones en adaptación continua; limitaciones: riesgo de deriva de modo en iteraciones largas.

Leer paper original

Volver a Papers IA

WhatsApp con nuestro agente IAEscríbenos y te atiende nuestro agente IA de WhatsApp. Es una demo real: el mismo que montamos para clientes.Llama y habla con nuestra IA de vozLlámanos al 941 72 25 19 y resuelve tus dudas por teléfono hablando con nuestra IA de voz. Otra demo real, funcionando.