Las evaluaciones de IA se están convirtiendo en el nuevo cuello de botella de cómputo
Las evaluaciones de IA han cruzado un umbral de coste que limita su accesibilidad, convirtiéndose en un nuevo cuello de botella computacional comparable o superior al entrenamiento de modelos. El Holistic Agent Leaderboard (HAL) gastó unos 40.000 dólares en 21.730 ejecuciones de agentes en 9 modelos y 9 benchmarks, mientras que una sola ejecución de GAIA en un modelo frontier puede costar 2.829 dólares. Benchmarks de agentes son sensibles a scaffolds y ruidosos, con compresiones limitadas a 2-3,5 veces, y los de entrenamiento en bucle, como The Well o PaperBench, alcanzan miles de dólares por arquitectura o agente. La fiabilidad requiere repeticiones que multiplican costes exponencialmente. El artículo aboga por compartir datos de evaluación estandarizados para evitar redundancias y democratizar la validación independiente.