innogym_benchmarking_the_innovation_potential_of_ai_agents
AI AgentsInnovation BenchmarkCreativityInnoGymLLM JudgesZhejiang University
Abstract
InnoGym es un benchmark comprehensivo para medir innovación en agentes AI, con 200 tareas que requieren combinación novedosa de herramientas y razonamiento creativo (e.g., inventar gadgets). Evalúa métricas como originalidad (via LLM judges) y utilidad. Líderes actuales logran 45% innovación score; revela debilidades en abstracción. Facilita progreso en AGI creativo; limitaciones: subjetividad en evaluación humana.