ArcANE: Evaluación de la fidelidad de personaje en agentes de rol | ¿Mantienen los agentes de IA su personalidad en momentos críticos? | Benchmark de consistencia conductual para agentes de lenguaje basados en personajes
Abstract
PROBLEMA: Los agentes de lenguaje especializados en juegos de rol (Role-Playing Agents) a menudo fallan al mantener la consistencia de sus personajes, desviándose de sus rasgos asignados en momentos críticos o respondiendo de manera genérica. SOLUCIÓN: El paper presenta ArcANE, un benchmark diseñado específicamente para evaluar si los agentes se mantienen en el personaje (stay in character) en el momento adecuado, analizando la dinámica entre la instrucción del sistema y la respuesta contextual. METODOLOGÍA: Utiliza un marco de evaluación multidimensional que incluye coherencia conductual, tono de voz y reacción a disparadores ambientales mediante una serie de escenarios controlados. RESULTADOS: Los experimentos revelan que incluso los modelos más avanzados pierden la "máscara" del personaje cuando se enfrentan a dilemas lógicos o instrucciones contradictorias, estableciendo una nueva línea base para el desarrollo de personalidades persistentes. RELEVANCIA: Es fundamental para mejorar la inmersión en aplicaciones de entretenimiento, entrenamiento y simulaciones sociales donde la fidelidad al rol es prioritaria.