Uber agotó su presupuesto de IA para todo 2026 en abril, cuatro meses antes de lo previsto. Microsoft revocó las licencias de Claude Code a decenas de desarrolladores semanas después de habilitarlas. Un ingeniero de Priceline gastó 40.000 dólares en tokens en un solo mes. Estos no son casos aislados: son el patrón que ha emergido en 2026 cuando las empresas empezaron a desplegar agentes de IA a escala y descubrieron que los contadores de tokens no tenían techo.

La paradoja del precio decreciente y la factura creciente

El precio por token ha caído de forma sostenida durante los últimos dos años. OpenAI, Anthropic y Google han rebajado sus tarifas varias veces en 2025 y 2026. La lógica dictaba que a menor precio, menor gasto total. La realidad ha demostrado lo contrario. La reducción de precio ha funcionado como un acelerador del consumo: cuando los tokens se abaratan, los desarrolladores los usan con menos cuidado, los agentes lanzan más llamadas, los pipelines se vuelven más complejos y los flujos de trabajo se expanden. El resultado es que el consumo total crece más rápido que la caída del precio unitario, y la factura final sube. Goldman Sachs proyecta que el uso de tokens en la industria se multiplicará por 24 para 2030. Esa curva no tiene visos de aplanarse.

El fenómeno tiene un nombre en la industria: tokenmaxxing. La práctica de usar el modelo más potente disponible para cada tarea, independientemente del coste o la necesidad real. Alexander Embiricos, responsable de producto en OpenAI, lo describe con claridad: las conversaciones con los clientes empresariales ya no tratan de usar más IA. Ahora tratan de visibilidad y controles sobre los tokens. El cambio de conversación refleja el cambio de problema.

Casos reales: cuando el gasto superó toda previsión

Los ejemplos publicados en la industria revelan una escala de desbordamiento que sorprende incluso a quienes trabajan con IA. Priceline comunicó que la renovación de su contrato con Cursor le costó entre cuatro y cinco veces más de lo previsto. J.R. Storment, de la FinOps Foundation, compara el momento actual con la época en que las empresas descubrieron que sus facturas de nube se habían disparado sin control: la conversación entera ha pasado del tokenmaxxing a preguntarse cómo ponemos límites a esto. Chris Reed, de Priceline, va más lejos en la comparación y describe la situación como el crack-cocaine de la tecnología: una vez que los equipos acceden a modelos de IA sin restricciones, el consumo escala de forma casi inevitable. El caso más llamativo reportado fue una empresa que acumuló una factura de 500 millones de dólares en Claude por no haber configurado límites de uso. Una omisión administrativa con consecuencias de nueve cifras.

El perfil del ingeniero de alto consumo resulta especialmente interesante. Nicholas Arcolano, de Jellyfish, detectó que los ingenieros con mayor gasto en tokens fueron un 2x más productivos, pero consumieron 10x más tokens que la media. La relación entre coste y valor no es lineal. El mejor retorno de inversión, según su análisis, no viene de los usuarios más intensivos sino de llevar a la amplia mayoría de usuarios de un consumo bajo a uno moderado.

La respuesta del sector: Tokenomics Foundation y herramientas emergentes

La Linux Foundation anunció esa misma semana la creación de la Tokenomics Foundation, con lanzamiento formal previsto para julio de 2026. Su objetivo es hacer para la gestión de costes de IA lo que FinOps hizo para el gasto en nube: estandarizar definiciones, métricas y prácticas. La Foundation ya ha propuesto métricas concretas como cost-per-intelligence y tokens-per-watt, intentando traducir el consumo de tokens a unidades comparables y auditables. Es un primer paso hacia una disciplina que hoy no existe de forma sistemática.

Paralelamente ha emergido un mercado de herramientas específicas. Pay-i y Paid ofrecen rastreo y optimización de costes de IA generativa. Jellyfish, Waydev y Faros AI monitorizan el uso de agentes de IA en equipos de ingeniería. Ramp, Datadog y New Relic han integrado dashboards de gasto en IA en sus plataformas de gestión financiera y observabilidad. Factory ha desarrollado un enrutador automático de modelos que selecciona la opción más económica para cada tarea según criterios de coste-calidad.

Lo que cambia para empresas que usan IA

La crisis de los costes de tokens tiene implicaciones directas para cualquier empresa que haya incorporado IA en sus procesos. La primera es que el presupuesto de IA no puede ser una partida fija anual. El consumo de tokens crece con el uso y con la sofisticación del uso: cada agente adicional, cada llamada de verificación, cada ciclo de razonamiento ampliado, suma a la factura. Sin mecanismos de control, el gasto puede multiplicarse en semanas sin que haya ningún cambio intencional en la estrategia.

La segunda implicación es que el coste real de la IA en producción raramente coincide con las estimaciones previas. Los costes de prototipo y los costes de despliegue a escala son categorías distintas. Un pipeline que cuesta 50 euros al mes en pruebas puede costar 5.000 euros al mes con tráfico real y agentes que se llaman entre sí. Las empresas que no han vivido ese salto todavía lo vivirán.

La tercera es que la eficiencia en el uso de tokens se está convirtiendo en una competencia técnica crítica. Saber diseñar prompts eficientes, elegir el modelo correcto para cada subtarea, implementar caché semántico o usar enrutadores de modelos son habilidades que hace un año eran optativas y hoy empiezan a ser diferenciadoras.

Conclusión

El sector de la IA ha entrado en una nueva fase. La adopción rápida ha generado facturas inesperadas, y la industria responde con estándares, herramientas y una nueva disciplina de gestión. Para las empresas, el mensaje es claro: usar IA de forma rentable requiere los mismos controles de visibilidad y gestión que cualquier otra infraestructura tecnológica. El presupuesto de tokens no es un coste fijo, y tratarlo como tal es el error que Uber, Microsoft y Priceline ya han cometido. Queda por ver si la Tokenomics Foundation y las herramientas emergentes consiguen estandarizar lo suficientemente rápido para que otras empresas no tengan que aprenderlo de la misma manera.