Aprendizaje en despliegue para políticas robóticas a escala de flota | Cómo mejorar robots generalistas mediante aprendizaje continuo en el mundo real | Framework de RL para la optimización de flotas robóticas en vivo
Abstract
PROBLEMA: Tradicionalmente, los robots se entrenan en simulación o con datos estáticos (offline), lo que impide que se adapten a la variabilidad infinita de los escenarios del mundo real una vez desplegados. SOLUCIÓN: Este paper introduce un paradigma de 'Aprendizaje durante el Despliegue' (Learning while Deploying) que utiliza una infraestructura de flota para recolectar experiencias en vivo y actualizar políticas generalistas de forma asíncrona. METODOLOGÍA: Implementan un ciclo de retroalimentación donde múltiples robots comparten buffers de experiencia en la nube, permitiendo que un algoritmo de Reinforcement Learning (RL) optimice la red neuronal central mientras los robots siguen ejecutando tareas. RESULTADOS: Demuestran que la tasa de éxito en tareas de manipulación aumenta significativamente tras solo 100 horas de operación en flota, superando a modelos entrenados puramente offline. RELEVANCIA: Este enfoque es clave para la evolución hacia 'Robot Foundation Models' que mejoren con el uso, similar a cómo los LLMs se benefician del RLHF.