Estrategias de reescritura para la recuperación de código | Cómo optimizar la búsqueda semántica en repositorios de software | Técnica para mejorar el matching entre consultas humanas y fragmentos de código
Abstract
PROBLEMA: Los sistemas de recuperación de código (Code Retrieval) a menudo fallan porque el código original contiene ruido, nombres de variables crípticos o estructuras específicas que no coinciden bien con las consultas semánticas de los usuarios. SOLUCIÓN: El paper propone y evalúa diversas estrategias de reescritura (rewriting) que transforman el código crudo en representaciones más ricas semánticamente antes de su indexación o recuperación. METODOLOGÍA: Se comparan métodos de abstracción, generación de comentarios automáticos por LLMs y normalización de sintaxis, midiendo su impacto en benchmarks de búsqueda de código. RESULTADOS: Demuestran que la reescritura estratégica supera significativamente al enfoque tradicional de 'copiar y pegar' el código tal cual, mejorando el Mean Reciprocal Rank (MRR) en diversas bases de datos. RELEVANCIA: Directamente aplicable para desarrolladores que construyen sistemas RAG especializados en software, permitiendo que la IA encuentre soluciones técnicas de forma mucho más precisa.