Programación con Datos: Ingeniería Basada en Pruebas para LLMs Automejorados | Optimización automática de calidad en corpus de entrenamiento para IA | Cómo usar ingeniería de datos iterativa para mejorar modelos de lenguaje de forma autónoma
Abstract
PROBLEMA: El rendimiento de los LLMs depende críticamente de la calidad de los datos, pero los procesos tradicionales de limpieza son manuales, opacos y difíciles de iterar. SOLUCIÓN: El paper propone 'Programming with Data', un paradigma de Ingeniería de Datos Basada en Pruebas (TDE) que permite a los LLMs autoevaluar y filtrar corpus masivos de forma programática. METODOLOGÍA: Utilizan un bucle de retroalimentación donde el modelo identifica 'unidades de conocimiento' faltantes o ruidosas en el corpus mediante pruebas automáticas, refinando el dataset de entrenamiento en tiempo real. RESULTADOS: Los modelos entrenados con este método superan a los pipelines de preprocesamiento estándar en benchmarks de razonamiento y conocimiento general, utilizando un 40% menos de datos totales. RELEVANCIA: Es un avance clave hacia modelos que pueden curar de manera autónoma sus propias fuentes de conocimiento para procesos de fine-tuning continuo.