12 de abril de 2026

OpenVLThinkerV2: Modelo generalista de razonamiento multimodal | Potenciando la lógica visual en agentes inteligentes | Razonamiento de múltiples pasos para tareas de visión-lenguaje de código abierto

Multimodal Reasoningrazonamiento visualVLMOpenVLThinkerV2visión por computadoravisual intelligencecross-domain reasoning

Abstract

PROBLEMA: Los modelos visuales-lingüísticos (VLMs) actuales suelen fallar en tareas que requieren razonamiento abstracto o de múltiples pasos sobre información visual, limitándose a menudo a descripciones superficiales de la imagen. SOLUCIÓN: Introducen OpenVLThinkerV2, un modelo de razonamiento multimodal generalista diseñado para abordar tareas visuales complejas que requieren lógica deductiva e inducción en múltiples dominios (médico, técnico, cotidiano). METODOLOGÍA: Implementan una técnica de entrenamiento basada en "Chain-of-Visual-Thought" y un refinamiento mediante aprendizaje por refuerzo con retroalimentación humana (RLHF) adaptado a la veracidad visual, utilizando un dataset curado de 1.2 millones de pares de razonamiento visual. RESULTADOS: OpenVLThinkerV2 muestra mejoras significativas en benchmarks de razonamiento espacial y matemático-visual, reduciendo las alucinaciones perceptuales en un 35% frente a versiones anteriores. RELEVANCIA: Este modelo es vital para aplicaciones donde la IA debe "pensar" antes de describir, como en diagnósticos médicos asistidos o análisis de infraestructura crítica.

Leer paper original

Volver a Papers IA