Darwin-TTS: Hemos dado a un modelo TTS el 3% del cerebro de un LLM — y ha empezado a mostrar emoción
FINAL-Bench ha lanzado Darwin-TTS-1.7B-Cross, el primer modelo de transferencia cross-modal de pesos FFN desde un LLM a un TTS sin ningún entrenamiento ni datos adicionales. Al mezclar solo el 3% de los pesos del módulo FFN del 'talker' de Qwen3-1.7B en Qwen3-TTS-1.7B, el modelo TTS comienza a expresar emoción en el habla, especialmente en coreano. Esto es posible gracias a la coincidencia perfecta de arquitecturas entre ambos modelos, permitiendo una interpolación lineal simple en 84 tensores FFN. La técnica restaura patrones de comprensión lingüística emocional perdidos en el fine-tuning TTS. Se presenta como una alternativa ligera a entrenamientos multimodales costosos como GPT-4o y abre puertas a extensiones bidireccionales y a otros dominios como video.