Dentro de VAKRA: Razonamiento, uso de herramientas y modos de fallo de los agentes
IBM Research presenta un análisis detallado del benchmark VAKRA, un entorno ejecutable para evaluar el razonamiento composicional y el uso de herramientas en agentes de IA en escenarios empresariales. VAKRA consta de cuatro capacidades: encadenamiento de APIs de inteligencia de negocios, selección de herramientas con APIs de dashboard, razonamiento multi-hop y razonamiento multi-fuente con adherencia a políticas. Se analizan los modos de fallo de modelos como GPT-OSS-120B, Gemini y Claude, destacando debilidades en selección de herramientas, argumentos correctos y síntesis de respuestas. El framework de evaluación verifica trayectorias de ejecución completas y respuestas finales. Este benchmark revela lagunas críticas en la fiabilidad de agentes para despliegues reales.