¿Sabe tu LLM cuándo se equivoca? Presentación de un "benchmark" de metacognición, tabla de clasificación y adaptadores
ginigen-ai ha lanzado un nuevo marco para evaluar la metacognición en modelos de lenguaje grandes (LLM), es decir, su capacidad para detectar y corregir errores. Este proyecto presenta Metacognition-Bench, un conjunto de 300 problemas de "trampa" donde los LLM pueden cometer errores con confianza, una tabla de clasificación con 24 modelos y 11 adaptadores específicos para cada modelo. La iniciativa busca estandarizar la evaluación de la autoconciencia de errores en los LLM, mejorar la confianza en su despliegue y reducir las alucinaciones, ofreciendo una métrica complementaria a la precisión tradicional.
metacogniciónLLMmodelos de lenguajeevaluación de IAhallucinacionesHugging Faceginigen-ai
Leer noticia original