cuan_lejos_estamos_agentes_investigacion_profunda_utiles
Abstract
El paper evalúa el estado actual de agentes de IA para investigación profunda, destacando la brecha entre promesas y rendimiento real en tareas como revisión de literatura o experimentación científica. El problema surge de la dependencia en LLMs como GPT series, que fallan en razonamiento multi-paso y verificación factual (error rate >30% en PubMedQA). La metodología involucra un framework de evaluación con 50 tareas reales de investigación, midiendo métricas como profundidad de insight y reproducibilidad. Resultados de 18 autores colaborativos muestran que agentes actuales logran solo 55% de utilidad en benchmarks híbridos, pero proponen mejoras vía integración de knowledge graphs y human-in-the-loop. Contribuciones incluyen un dataset de desafíos y recomendaciones para escalabilidad, con implicaciones en aceleración científica pero limitaciones en privacidad de datos sensibles y sesgo en fuentes open-access.