Vividh-ASR: Diagnóstico y solución del sesgo de estudio en Whisper para lenguas índicas
Vividh-ASR es un trabajo de investigación y conjunto de herramientas que aborda el problema del "sesgo de estudio" en los modelos de Reconocimiento Automático de Voz (ASR) para lenguas índicas, como Whisper. Este sesgo se manifiesta en un rendimiento deficiente cuando los modelos procesan habla espontánea o con ruido, en contraste con su buen desempeño en grabaciones de estudio. Los autores de Adalat AI proponen un nuevo banco de pruebas, Vividh-ASR, que clasifica la evaluación por complejidad acústica, y una receta de ajuste fino para Whisper que mejora la robustez en diversas condiciones acústicas. El principal hallazgo es que el uso de una tasa de aprendizaje alta (2e-4) es fundamental para romper el sesgo preentrenado de Whisper, superando a los modelos ASR existentes para hindi y malayalam. Además, para malayalam, proponen un aprendizaje curricular inverso (de difícil a fácil, R-MFT) que mejora aún más los resultados.