KernelBench-X: Benchmark integral para kernels de GPU generados por LLMs | Cómo evaluar el rendimiento de código de GPU escrito por IA | Comparativa de eficiencia técnica en generación de código de bajo nivel por modelos de lenguaje
Abstract
PROBLEMA: La generación de código de bajo nivel para aceleradores de hardware (kernels de GPU) por parte de LLMs carece de un estándar de evaluación exhaustivo que considere tanto la corrección funcional como el rendimiento computacional. SOLUCIÓN: Se presenta KernelBench-X, un benchmark integral diseñado específicamente para medir la capacidad de los modelos de IA al generar kernels de GPU optimizados. METODOLOGÍA: El framework evalúa modelos en tareas de Triton, CUDA y arquitecturas heterogéneas, utilizando métricas de velocidad de ejecución, utilización de memoria y precisión contra implementaciones de referencia. RESULTADOS: Los hallazgos revelan brechas significativas entre el código 'sintácticamente correcto' y el 'técnicamente eficiente', destacando áreas de mejora para modelos especializados en codificación. RELEVANCIA: Es crucial para el desarrollo de copilotos de programación que asistan en la optimización de infraestructuras críticas de IA y computación científica.