Hugging Face

Las evaluaciones de IA se están convirtiendo en el nuevo cuello de botella de cómputo

1 de mayo de 2026

Las evaluaciones de IA han cruzado un umbral de coste que limita su accesibilidad, convirtiéndose en un nuevo cuello de botella computacional comparable o superior al entrenamiento de modelos. El Holistic Agent Leaderboard (HAL) gastó unos 40.000 dólares en 21.730 ejecuciones de agentes en 9 modelos y 9 benchmarks, mientras que una sola ejecución de GAIA en un modelo frontier puede costar 2.829 dólares. Benchmarks de agentes son sensibles a scaffolds y ruidosos, con compresiones limitadas a 2-3,5 veces, y los de entrenamiento en bucle, como The Well o PaperBench, alcanzan miles de dólares por arquitectura o agente. La fiabilidad requiere repeticiones que multiplican costes exponencialmente. El artículo aboga por compartir datos de evaluación estandarizados para evitar redundancias y democratizar la validación independiente.

evaluaciones IAcuello de botella cómputoagentes IAHALGAIAEvalEval Coalitionbenchmarks

Leer noticia original

Volver a Noticias IA