CausalMix: Mezcla de datos mediante inferencia causal para LLMs | Optimización científica del dataset de entrenamiento de modelos de lenguaje | Cómo predecir la calidad de un LLM según su mezcla de datos inicial
Abstract
PROBLEMA: La mezcla de datos (data mixture) en el pre-entrenamiento de LLMs es un 'arte oscuro' basado en la prueba y error, careciendo de una base científica que explique cómo cada categoría de datos (código, matemáticas, literatura) contribuye al razonamiento final. SOLUCIÓN: CausalMix propone tratar la mezcla de datos como un problema de inferencia causal. El marco identifica las relaciones causales entre los dominios de datos y las capacidades del modelo, permitiendo predecir el impacto de un cambio en la mezcla sin entrenar el modelo completo. METODOLOGÍA: Utilizaron modelos de escala pequeña (1B-3B) para realizar intervenciones experimentales en la composición del dataset y aplicaron modelos de respuesta causal para extrapolar resultados a modelos de 7B y 13B parámetros. RESULTADOS: CausalMix logró reducir el costo computacional de búsqueda de hiperparámetros de datos en un 70%, permitiendo que sus modelos igualen a Llama-3 en benchmarks de razonamiento matemático con un 15% menos de tokens totales. RELEVANCIA: Cambia el paradigma de 'cuantos más datos mejor' hacia una ingeniería de datos dirigida por causalidad, esencial para el entrenamiento eficiente de modelos frontera.