CausalMix: Mezcla de datos mediante inferencia causal para el entrenamiento de LLMs | Optimización científica de la proporción de datos en modelos de lenguaje | Cómo seleccionar datos de entrenamiento para IA usando métodos causales
Abstract
PROBLEMA: La determinación de las proporciones óptimas de diferentes fuentes de datos (data mixture) en el pre-entrenamiento de LLMs sigue siendo un proceso empírico costoso y poco fundamentado teóricamente. SOLUCIÓN: Propone CausalMix, un marco de trabajo que trata la mezcla de datos como un problema de inferencia causal para identificar el impacto directo de cada fuente de datos en las capacidades finales del modelo. METODOLOGÍA: Utilizan experimentos controlados y contrafactuales para modelar la contribución de diversos dominios de datos en benchmarks específicos, ajustando las proporciones de forma dinámica. RESULTADOS: CausalMix logra una convergencia más rápida y mejores resultados en benchmarks generales comparado con mezclas uniformes o heurísticas tradicionales, reduciendo el gasto computacional. RELEVANCIA: Proporciona una metodología científica para el diseño de datasets, permitiendo entrenar LLMs más capaces con menos recursos de datos redundantes.