Ir al contenido principal
Hugging Face Blog

Borealis: Una receta de código, datos y pesos abiertos para entrenar modelos de lenguaje de audio (Audio LLM)

VikhrModels presenta Borealis, un modelo de lenguaje de audio de código abierto de 5B parámetros para ruso e inglés. Este artículo detalla cómo fue entrenado desde cero, utilizando Whisper3-large, Qwen 4B y un adaptador intermedio. El objetivo de Borealis es permitir a los modelos de lenguaje no solo transcribir audio, sino también comprenderlo y razonar sobre él, capacitándolos para tareas como resumir grabaciones, responder preguntas sobre el contenido y analizar el tono y la emoción. Los autores comparten lecciones aprendidas sobre la importancia de los datos de preentrenamiento, el uso de datos nativos sobre la transferencia interlingüística y el impacto de añadir instrucciones en texto. También se detalla la integración con vLLM para una inferencia rápida y eficiente.

BorealisAudio LLMmodelos de lenguajecódigo abiertoWhisperQwenvLLM
Leer noticia original
Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h