24 de junio de 2026

Programador de Datos Holístico para Pre-entrenamiento de LLMs mediante RL Multi-Objetivo | Automatización de la selección de datos para entrenar modelos de lenguaje | Optimización dinámica del currículo de entrenamiento en inteligencia artificial generativa

Data Schedulerprogramación de datosLLM pre-trainingMulti-Objective RL联合训练optimización de datoseficiencia de entrenamientocuración de datos automática

Abstract

PROBLEMA: Determinar qué datos debe ver un modelo y en qué orden durante el pre-entrenamiento es un proceso manual, costoso y subjetivo. SOLUCIÓN: Se presenta un Programador de Datos Holístico (Holistic Data Scheduler) que utiliza Aprendizaje por Refuerzo Multi-Objetivo (MORL) para automatizar la selección de datos. METODOLOGÍA: El sistema evalúa continuamente el rendimiento del modelo en diversos benchmarks y ajusta dinámicamente las proporciones del corpus de entrenamiento para maximizar el aprendizaje en múltiples dominios simultáneamente. RESULTADOS: Los modelos entrenados con este scheduler alcanzan una convergencia más rápida y mejores métricas generales que aquellos con proporciones de datos estáticas o heurísticas manuales. RELEVANCIA: Vital para industrializar el entrenamiento de modelos fundacionales de próxima generación con mínima intervención humana.

Leer paper original

Volver a Papers IA