Ir al contenido principal
Hugging Face Blog

El cuadro de clasificación de agentes abiertos

Elron Bandel e IBM Research han lanzado el "Open Agent Leaderboard", un nuevo marco de evaluación abierto para comparar sistemas de agentes de IA completos, no solo los modelos subyacentes. Este benchmark busca medir la generalidad y el coste de los agentes de IA en diversas tareas, incluyendo codificación, servicio al cliente y soporte técnico. Se basa en seis benchmarks preexistentes y un protocolo unificado para estandarizar las pruebas. La iniciativa es completamente de código abierto, con la herramienta Exgentic para reproducir evaluaciones y un artículo científico que describe la metodología.

Open Agent Leaderboardagentes de IAevaluación de agentesExgenticIBM ResearchHugging Facemodelos de lenguaje
Leer noticia original
Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h