Flash-MoE: modelos de 400.000 millones de parámetros en hardware modesto ya son posibles
En marzo de 2026, un investigador ejecutó un modelo de lenguaje de 397.000 millones de parámetros en un MacBook Pro de 48 GB. No en un servidor de Google ni en un clúster de AWS: en un portátil personal. Flash-MoE, el motor de inferencia que lo hizo posible, está cambiando el cálculo que las empresas hacen cuando se plantean dónde alojar su IA.
Qué es Flash-MoE y qué acaba de demostrar
Flash-MoE es un motor de inferencia de código abierto que utiliza la investigación de Apple sobre "LLM in a Flash" para ejecutar modelos gigantes sin necesidad de cargarlos enteros en memoria RAM. En lugar de eso, transmite los pesos del modelo directamente desde el almacenamiento NVMe del dispositivo, igual que cuando se hace streaming de vídeo en lugar de descargarlo completo. El modelo elegido para la demostración fue Qwen3.5-397B-A17B, la versión de 397.000 millones de parámetros de la familia Qwen desarrollada por Alibaba Cloud, con cuantización de 2 bits para reducir el tamaño del modelo a unos 209 GB. El resultado: 4,4 tokens por segundo en un MacBook Pro con 48 GB de RAM. Y, como prueba de concepto extrema, 0,6 tokens por segundo en un iPhone 17 Pro con solo 12 GB de RAM.
La clave técnica que lo hace posible
Los modelos de tipo Mixture of Experts (MoE) como Qwen3.5 no activan todos sus parámetros para cada token que generan. De los 512 expertos disponibles en el modelo, Flash-MoE reduce los activos a solo 4 por token. Esto, combinado con cuantización a 4 bits en los pesos principales y shaders de Metal optimizados manualmente para Apple Silicon, permite que un modelo diseñado para centros de datos funcione en hardware de consumo. El proyecto es completamente abierto: el código está en GitHub bajo el usuario danveloper, y el modelo base Qwen3.5-397B está disponible en Hugging Face sin restricciones de uso comercial en la mayoría de jurisdicciones.
Qué significa esto para las empresas que procesan datos sensibles
Durante años, el argumento de muchas empresas para no adoptar IA avanzada ha sido el cumplimiento normativo: los modelos más potentes solo se ejecutaban en servidores de terceros en Estados Unidos, lo que complicaba el cumplimiento del RGPD. Flash-MoE dibuja un escenario distinto. Si modelos de calidad comparable a GPT-4 pueden ejecutarse en hardware local de 12 a 48 GB, las clínicas, despachos legales, empresas de recursos humanos y cualquier organización que procese datos personales puede tener IA de alto nivel sin que los datos salgan de sus instalaciones. El 0,6 tok/s del iPhone 17 Pro no es suficiente para producción, pero los 4,4 tok/s del MacBook Pro ya son utilizables para tareas internas: resumen de documentos, análisis de contratos, clasificación de expedientes. La velocidad seguirá mejorando con cada iteración de los chips y los algoritmos.
Conclusión
Flash-MoE no es el producto final, sino la demostración de que la dirección es viable. Los modelos de 400.000 millones de parámetros en hardware modesto eran ciencia ficción hace seis meses. Hoy son un repositorio público en GitHub. Para las empresas que aún esperan a que la IA sea segura y legal, el argumento técnico para esperar se acaba de debilitar de forma significativa. Lo que queda es el argumento organizativo: la voluntad de integrar estas herramientas en los procesos reales del negocio.