22 de junio de 2026

PerceptionDLM: Percepción de regiones en paralelo con modelos de lenguaje de difusión multimodales | Cómo acelerar la detección de objetos y segmentación usando LLMs de difusión | Integración eficiente de visión y lenguaje para análisis de escenas en tiempo real

Multimodal DiffusionDifusión multimodal DashRegion PerceptionPercepción de regionesParallel ProcessingProcesamiento en paralelo AIComputer Vision LLMSegmentación visual IA

Abstract

PROBLEMA: Los modelos multimodales actuales suelen procesar la percepción de regiones de forma secuencial o mediante 'tokens' de coordenadas, lo que genera cuellos de botella en la latencia y limita la precisión en escenas con múltiples objetos densos. SOLUCIÓN: Se propone PerceptionDLM, una arquitectura que utiliza Modelos de Lenguaje de Difusión (Diffusion Language Models) para realizar percepción de regiones en paralelo. A diferencia de los enfoques autorregresivos, este método permite decodificar múltiples regiones e información semántica simultáneamente. METODOLOGÍA: El equipo de ByteDance integró un decodificador de difusión basado en regiones dentro del framework de un LLM. El modelo fue entrenado con un dataset masivo de pares de imagen-texto enriquecidos con máscaras de segmentación, permitiendo que el LLM 'entienda' la geometría de los objetos mediante representaciones de difusión. RESULTADOS: PerceptionDLM supera a modelos como LLaVA en tareas de detección y segmentación (mAP), logrando una velocidad de inferencia hasta 3 veces superior en escenas complejas mediante su capacidad de procesamiento paralelo. RELEVANCIA: Este enfoque es clave para sistemas de conducción autónoma y robótica móvil que necesitan detectar y clasificar múltiples objetos en milisegundos sin sacrificar la profundidad semántica del LLM.

Leer paper original

Volver a Papers IA