PhysicsIntern: de un ejecutor autónomo de benchmarks a un compañero de investigación
PhysicsIntern, un agente autónomo para la investigación en física, ha evolucionado de un sistema de evaluación de benchmarks a un asistente de investigación colaborativo. Inicialmente diseñado para funcionar de manera autónoma y medir el rendimiento en benchmarks complejos como CritPt, demostró superar significativamente las líneas de base. La nueva versión es más ligera, mantiene al humano en el bucle por defecto y funciona como un conjunto de habilidades que se integra con entornos de programación existentes como Claude Code, Codex o Pi. Esto permite a los investigadores guiar el proceso, aprobar planes y recibir feedback en tiempo real, transformando el agente en un valioso copiloto para problemas de investigación abiertos y complejos.
PhysicsInternagente autónomoinvestigación en físicabenchmarksCritPtcolaboración IAmodelos de lenguajeIA abierta
Leer noticia original