Ir al contenido principalSaltar al contenido

innogym_benchmarking_the_innovation_potential_of_ai_agents

AI AgentsInnovation BenchmarkCreativityInnoGymLLM JudgesZhejiang University

Abstract

InnoGym es un benchmark comprehensivo para medir innovación en agentes AI, con 200 tareas que requieren combinación novedosa de herramientas y razonamiento creativo (e.g., inventar gadgets). Evalúa métricas como originalidad (via LLM judges) y utilidad. Líderes actuales logran 45% innovación score; revela debilidades en abstracción. Facilita progreso en AGI creativo; limitaciones: subjetividad en evaluación humana.

Escríbenos por WhatsApp
Asesor Virtual 24h - Abre el chat para consultasAsesor Virtual 24h