Ir al contenido principal
Hugging Face Blog

Razonamiento sin entrenamiento al 88.89% en GPQA Diamond: Cómo la familia Darwin logró puntuaciones de frontera sin un solo paso de gradiente

La familia Darwin de VIDRAFT propone una nueva forma de desarrollar modelos LLM de razonamiento de nivel de frontera mediante la recombinación de los espacios de pesos de puntos de control existentes, sin necesidad de entrenamiento basado en gradientes. Su modelo insignia, Darwin-28B-Opus, alcanza un 88.89% en GPQA Diamond. La investigación aborda el alto coste del post-entrenamiento de los LLM y presenta tres mecanismos clave: un genoma de fusión adaptable de 14 dimensiones, la fusión MRI-Trust para diagnosticar la contribución de cada capa al razonamiento y un mapeador de arquitectura que permite combinar arquitecturas heterogéneas como Transformer y Mamba. Esto reduce significativamente los costes y demuestra que los espacios de pesos de los LLM de código abierto contienen capacidades latentes sin explotar.

Darwin FamilyDarwin-28B-OpusGPQA DiamondLLMrazonamiento sin entrenamientorecombinación de pesosVIDRAFT
Leer noticia original
Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h