KnowU-Bench: Hacia la Evaluación de Agentes Móviles Interactivos, Proactivos y Personalizados | Nuevo benchmark para medir la inteligencia en asistentes de IA para smartphones | Métricas de rendimiento para agentes móviles en escenarios de mundo real personalizados
Abstract
PROBLEMA: Los benchmarks actuales para agentes móviles se centran en tareas de "paso a paso" estáticas y reactivas, fallando en evaluar la capacidad de un agente para ser proactivo, interactivo y entender el contexto personalizado del usuario en un smartphone real. SOLUCIÓN: Se presenta KnowU-Bench, un nuevo estándar de evaluación diseñado específicamente para medir la interactividad, la proactividad y la personalización. El benchmark obliga a los agentes a manejar trazas de comportamiento heterogéneas y a anticipar las necesidades del usuario. METODOLOGÍA: Crearon un entorno de pruebas con más de 1000 escenarios de uso real en dispositivos móviles, categorizados por longitud de horizonte y necesidad de conocimiento personal previo del usuario. RESULTADOS: Las pruebas revelan que incluso los LLMs más avanzados actuales tienen dificultades significativas con la proactividad, fallando en iniciar acciones útiles sin comandos explícitos, lo que establece un nuevo desafío para la industria. RELEVANCIA: Provee la métrica necesaria para llevar los asistentes de IA de simples ejecutores de comandos a compañeros verdaderamente inteligentes y proactivos en dispositivos personales.