14 de abril de 2026

General365: Benchmark de razonamiento general para LLMs | Nuevo estándar para evaluar la inteligencia general en modelos de lenguaje | Evaluación exhaustiva de capacidades cognitivas en IA moderna

General365benchmark de razonamientoLLM evaluationevaluación de modelosrazonamiento generalcapacidades cognitivas IAIA generalista

Abstract

PROBLEMA: Los benchmarks actuales como MMLU o GSM8K están sufriendo de saturación y posible contaminación de datos, lo que impide distinguir la verdadera capacidad de razonamiento de la simple memorización en los LLMs de nueva generación. SOLUCIÓN: Se presenta General365, un nuevo estándar de evaluación que abarca 365 tareas diversas diseñadas para ser resistentes a la memorización, enfocándose en el razonamiento lógico, analógico y situacional en múltiples dominios. METODOLOGÍA: El benchmark utiliza datos generados dinámicamente y problemas que requieren múltiples pasos de inferencia cruzada entre disciplinas (ej. derecho, medicina, lógica computacional). Se evaluaron los modelos líderes del mercado (GPT-5 class, Bielik, etc.). RESULTADOS: General365 revela brechas significativas en modelos que antes parecían perfectos, demostrando que muchos fallan cuando se altera mínimamente la estructura semántica del problema. RELEVANCIA: Establece una nueva frontera para medir el progreso hacia la Inteligencia Artificial General (AGI) y proporciona una herramienta crítica para el desarrollo de sistemas de confianza.

Leer paper original

Volver a Papers IA