Ir al contenido principal
Hugging Face Blog

Ajuste preciso de NVIDIA Cosmos Predict 2.5 con LoRA/DoRA para la generación de vídeo de robots

NVIDIA Cosmos Predict 2.5 es un modelo de mundo a gran escala capaz de generar vídeos físicamente plausibles. Este artículo detalla cómo realizar un ajuste preciso y eficiente del modelo utilizando técnicas como LoRA y DoRA para adaptarlo a dominios específicos, como la manipulación robótica. La investigación se centra en la generación de trayectorias sintéticas para el entrenamiento de políticas de robots, superando los desafíos inherentes a la recopilación de datos con robots reales. La eficiencia de estas técnicas se demuestra en el uso de una sola GPU para el ajuste y la mejora significativa en la estabilidad temporal y la consistencia geométrica, así como en la plausibilidad física y el seguimiento de instrucciones en los vídeos generados. Se proporcionan comandos para el entrenamiento y la inferencia, así como métricas de evaluación como el error de Sampson y la valoración por modelos de lenguaje (LLM-as-a-Judge).

NVIDIA Cosmos Predict 2.5LoRADoRAgeneración de vídeorobóticaajuste finomodelos de mundo
Leer noticia original
Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h