31 de marzo de 2026

TAPS: Distribuciones de Propuesta Conscientes de la Tarea para Muestreo Especulativo | Cómo acelerar la inferencia de LLMs adaptando el modelo borrador a la tarea | Optimización de latencia en modelos de lenguaje mediante predicción adaptativa de tokens

Speculative Samplingmuestreo especulativoinferencia eficientedistribución de propuestaLLM inference accelerationlatencia de modelosoptimización de transformers

Abstract

PROBLEMA: El muestreo especulativo mejora la velocidad de inferencia de los LLMs mediante el uso de un modelo borrador (draft) pequeño que propone tokens, pero su eficiencia es subóptima porque la distribución de tokens propuestos no se adapta a las particularidades semánticas de la tarea específica. SOLUCIÓN: TAPS (Task Aware Proposal Distributions) introduce una metodología para ajustar dinámicamente las distribuciones del modelo borrador basándose en el contexto de la tarea, asegurando que las propuestas sean más precisas y aceptadas con mayor frecuencia por el modelo base. METODOLOGÍA: El equipo desarrolló una arquitectura de red auxiliar ligera que condiciona la salida del modelo especulativo según el dominio de la tarea detectado, evaluando el desempeño en benchmarks de generación de código, traducción y razonamiento lógico. RESULTADOS: Los experimentos demuestran una mejora del 15% al 25% en el rendimiento de generación (throughput) frente a métodos de muestreo especulativo estándar, manteniendo la fidelidad exacta de la distribución del modelo original. RELEVANCIA: Es fundamental para el despliegue de sistemas de IA en tiempo real donde la latencia es la principal barrera para la adopción de modelos grandes.

Leer paper original

Volver a Papers IA