29 de abril de 2026

Programación con Datos: Ingeniería Basada en Pruebas para LLMs Automejorados | Optimización automática de calidad en corpus de entrenamiento para IA | Cómo usar ingeniería de datos iterativa para mejorar modelos de lenguaje de forma autónoma

Data Engineeringingeniería de datosSelf-Improving LLMsLLMs que mejoran solosTest-Driven Developmentcalidad de datos IAraw corpora

Abstract

PROBLEMA: El rendimiento de los LLMs depende críticamente de la calidad de los datos, pero los procesos tradicionales de limpieza son manuales, opacos y difíciles de iterar. SOLUCIÓN: El paper propone 'Programming with Data', un paradigma de Ingeniería de Datos Basada en Pruebas (TDE) que permite a los LLMs autoevaluar y filtrar corpus masivos de forma programática. METODOLOGÍA: Utilizan un bucle de retroalimentación donde el modelo identifica 'unidades de conocimiento' faltantes o ruidosas en el corpus mediante pruebas automáticas, refinando el dataset de entrenamiento en tiempo real. RESULTADOS: Los modelos entrenados con este método superan a los pipelines de preprocesamiento estándar en benchmarks de razonamiento y conocimiento general, utilizando un 40% menos de datos totales. RELEVANCIA: Es un avance clave hacia modelos que pueden curar de manera autónoma sus propias fuentes de conocimiento para procesos de fine-tuning continuo.

Leer paper original

Volver a Papers IA