Razonamiento sin entrenamiento al 88.89% en GPQA Diamond: Cómo la familia Darwin logró puntuaciones de frontera sin un solo paso de gradiente
La familia Darwin de VIDRAFT propone una nueva forma de desarrollar modelos LLM de razonamiento de nivel de frontera mediante la recombinación de los espacios de pesos de puntos de control existentes, sin necesidad de entrenamiento basado en gradientes. Su modelo insignia, Darwin-28B-Opus, alcanza un 88.89% en GPQA Diamond. La investigación aborda el alto coste del post-entrenamiento de los LLM y presenta tres mecanismos clave: un genoma de fusión adaptable de 14 dimensiones, la fusión MRI-Trust para diagnosticar la contribución de cada capa al razonamiento y un mapeador de arquitectura que permite combinar arquitecturas heterogéneas como Transformer y Mamba. Esto reduce significativamente los costes y demuestra que los espacios de pesos de los LLM de código abierto contienen capacidades latentes sin explotar.