18 de junio de 2026

GameCraft-Bench: Capacidad de Agentes para Construir Videojuegos End-to-End | Evaluación de autonomía creativa y técnica en motores de juego | Benchmark para medir la ingeniería de sistemas en agentes de IA avanzados

GameCraft-Benchagentes autónomosdesarrollo de videojuegos AIevaluación end-to-endUnity/Unreal engine agentsrazonamiento multietapabenchmarking IA

Abstract

PROBLEMA: La mayoría de los benchmarks para agentes se centran en tareas atómicas; no existe una métrica robusta para evaluar la capacidad de un agente para realizar proyectos complejos y creativos de principio a fin. SOLUCIÓN: GameCraft-Bench es un nuevo benchmark diseñado para probar si los agentes pueden construir juegos jugables en motores reales (como Unity), integrando código, diseño de niveles y lógica de juego. METODOLOGÍA: Define 50 escenarios de desarrollo con requisitos funcionales y estéticos, evaluando a los agentes en base a la compilación exitosa, la ausencia de errores lógicos y la jugabilidad final. RESULTADOS: Los resultados muestran que incluso los modelos más avanzados (GPT-4o, Claude 3.5) fallan en el 70% de las tareas más complejas debido a problemas de memoria a largo plazo y coordinación de herramientas. RELEVANCIA: Establece una nueva frontera para la IA agéntica, moviéndola desde la simple escritura de scripts hacia la ingeniería de sistemas y la creatividad técnica orquestada.

Leer paper original

Volver a Papers IA