29 de abril de 2026

AutoResearchBench: Benchmark de Agentes para Descubrimiento de Literatura Científica | Evaluación de la capacidad de agentes IA para investigar papers técnicos | Métricas de rendimiento en agentes dedicados a la investigación científica avanzada

Scientific Discoverydescubrimiento científico IAAgent Benchmarkingevaluación de agentesRAG avanzadoliteratura técnicabenchmarks de investigación

Abstract

PROBLEMA: Los benchmarks actuales para agentes se centran en tareas cotidianas o web simples, sin capturar la complejidad real del análisis de literatura científica y el razonamiento experto. SOLUCIÓN: Se presenta AutoResearchBench, un entorno de evaluación integral diseñado específicamente para medir la capacidad de los agentes en el descubrimiento, síntesis y razonamiento sobre literatura científica compleja. METODOLOGÍA: El benchmark incluye miles de tareas que requieren lectura de múltiples documentos, comprensión de gráficos y síntesis de hipótesis originales, contrastando el rendimiento de modelos pro-agénticos actuales. RESULTADOS: Los resultados revelan una brecha significativa entre la capacidad de encontrar información y la capacidad de conectarla lógicamente, estableciendo un nuevo estándar de dificultad para la industria. RELEVANCIA: Es vital para el desarrollo de sistemas RAG y agentes que asistan a científicos en la frontera del conocimiento.

Leer paper original

Volver a Papers IA