12 de abril de 2026

HY-Embodied-0.5: Modelos fundacionales para agentes en el mundo real | Cómo integrar percepción visual y acción física en IA | El nuevo estándar de Tencent para robótica cognitiva y agentes físicos

Embodied AIIA encarnadafoundation modelsrobótica cognitiva烈modelos de mundoreal-world agentsmultimodal sensorimotor control

Abstract

PROBLEMA: La mayoría de los modelos de lenguaje y visión carecen de una comprensión "encarnada" del mundo físico, lo que dificulta su aplicación directa en robótica donde la percepción y la acción deben estar estrechamente vinculadas. SOLUCIÓN: Se presenta HY-Embodied-0.5, un modelo fundacional diseñado específicamente para agentes que operan en el mundo real. Este modelo integra señales sensoriales heterogéneas con una comprensión espacial profunda para ejecutar tareas manipulativas complejas. METODOLOGÍA: El modelo utiliza una arquitectura de transformadores multimodales preentrenada en un corpus masivo de datos de interacción robótica, simulaciones físicas y videos de humanos realizando tareas motrices, utilizando una función de pérdida que prioriza la consistencia temporal-espacial. RESULTADOS: El modelo supera a los baselines en tareas de "zero-shot" en ambientes domésticos e industriales, demostrando una capacidad superior para entender comandos en lenguaje natural y traducirlos en trayectorias físicas coherentes. RELEVANCIA: Es un paso fundamental hacia agentes autónomos que no solo "hablan" sino que "actúan" con precisión en entornos físicos dinámicos, siendo un pilar para la robótica de próxima generación.

Leer paper original

Volver a Papers IA