DARE: Alineación de Agentes LLM con el Ecosistema Estadístico R mediante Recuperación Consciente de la Distribución
Abstract
Este estudio presenta DARE, un marco de trabajo diseñado para cerrar la brecha entre los agentes basados en modelos de lenguaje (LLM) y el ecosistema estadístico del lenguaje R. A diferencia de Python, donde los agentes han mostrado una madurez considerable, el entorno de R presenta desafíos únicos debido a su sintaxis específica y la dispersión de su documentación técnica. DARE implementa una técnica de Recuperación Consciente de la Distribución (Distribution-Aware Retrieval) que optimiza la selección de herramientas y funciones estadísticas basándose en la relevancia contextual y la semántica de las consultas. El sistema mejora significativamente la capacidad de los agentes para realizar análisis de datos complejos, generar visualizaciones precisas y ejecutar scripts de R sin errores de sintaxis comunes. El paper documenta evaluaciones exhaustivas donde los agentes DARE superan a los baselines estándar en la resolución de problemas estadísticos de nivel profesional, demostrando una transferencia de conocimiento efectiva hacia dominios de computación científica específicos. Los resultados sugieren que la alineación de agentes mediante recuperación especializada es una alternativa superior al ajuste fino (fine-tuning) masivo para dominios técnicos.