Ir al contenido principal
Hugging Face

Dentro de VAKRA: Razonamiento, uso de herramientas y modos de fallo de los agentes

IBM Research presenta un análisis detallado del benchmark VAKRA, un entorno ejecutable para evaluar el razonamiento composicional y el uso de herramientas en agentes de IA en escenarios empresariales. VAKRA consta de cuatro capacidades: encadenamiento de APIs de inteligencia de negocios, selección de herramientas con APIs de dashboard, razonamiento multi-hop y razonamiento multi-fuente con adherencia a políticas. Se analizan los modos de fallo de modelos como GPT-OSS-120B, Gemini y Claude, destacando debilidades en selección de herramientas, argumentos correctos y síntesis de respuestas. El framework de evaluación verifica trayectorias de ejecución completas y respuestas finales. Este benchmark revela lagunas críticas en la fiabilidad de agentes para despliegues reales.

VAKRAIBM Researchagentes de IArazonamientouso de herramientasAPIsbenchmarks
Leer noticia original
Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h