¿Es lo suficientemente agéntico? Evaluación comparativa de modelos abiertos en tu propia herramienta
Este artículo explora la evaluación de la eficacia de las herramientas de software para agentes de codificación. Propone una nueva forma de medir el rendimiento de los agentes, no solo por el resultado final, sino también por el esfuerzo que les llevó llegar a él, considerando el costo, la latencia, el uso de tokens y los errores. Se utiliza `transformers` como caso de estudio y se presenta una herramienta específica, `agent-eval`, que permite medir cómo optimizar el software para la interacción con agentes, así como evaluar el rendimiento de diferentes agentes y modelos en tareas relevantes. El estudio destaca que una misma mejora puede beneficiar a modelos grandes y perjudicar a los pequeños, subrayando la importancia de evaluar las APIs orientadas a agentes en diferentes tamaños de modelo.