Google tiene un nuevo método para que la IA consuma mucha menos memoria. Malísimas noticias para Micron y SK Hynix
Google Research ha publicado un estudio sobre TurboQuant, una técnica de compresión que reduce hasta seis veces la memoria KV cache en modelos de IA durante la inferencia, sin pérdida de rendimiento. Esto surge en medio de la crisis de memoria RAM, ofreciendo una solución para centros de datos que necesitan menos hardware. Fabricantes como Micron, Samsung y SK Hynix han visto caer sus acciones en bolsa ante el anuncio. Aunque solo afecta a la fase de inferencia y no al entrenamiento, pruebas preliminares confirman su efectividad, lo que podría bajar precios de tokens en servicios de IA. El impacto real dependerá de su adopción por las empresas.
TurboQuantGoogle ResearchKV cachememoria RAMMicronSK Hynixinteligencia artificial
Leer noticia original