Tokenmaxxing: por qué las métricas de adopción de IA pueden estar engañándote

Miguel Marín Pascual — SAPIENSDATAAI
tokenmaxxingmetricas IALey de Goodhartadopcion de IAROI inteligencia artificialAmazon IAmedir IA empresaPYME inteligencia artificial

Amazon ha invertido cerca de 200.000 millones de dólares en infraestructura de inteligencia artificial. Y algunos de sus empleados están usando esa potencia para automatizar tareas que nadie necesitaba, con un único objetivo: inflar su consumo interno de tokens y quedar mejor en los marcadores de la empresa. El fenómeno tiene nombre — "tokenmaxxing" — y es mucho más que una anécdota corporativa.

Qué está pasando exactamente

Según la información publicada, dentro de Amazon ha surgido una práctica en la que empleados utilizan una herramienta interna llamada MeshClaw para encadenar tareas artificiales que disparan el número de tokens de IA consumidos. El motivo no es técnico: es de incentivos. La compañía mide la adopción de IA mediante marcadores internos, y cuando un número se convierte en objetivo de evaluación, la gente optimiza ese número, no el resultado que se suponía que medía. No es un caso aislado: prácticas similares se han descrito antes en Meta y Microsoft, lo que sugiere un patrón estructural y no la travesura de unos pocos.

La Ley de Goodhart, en estado puro

Lo que ocurre en Amazon es el ejemplo de manual de la Ley de Goodhart: "cuando una medida se convierte en objetivo, deja de ser una buena medida". El consumo de tokens parecía un proxy razonable de cuánta IA usaba realmente la organización. En el momento en que ese proxy pasó a influir en las evaluaciones, dejó de reflejar adopción real y empezó a reflejar la capacidad de los empleados para fabricar consumo. El dato agregado sigue subiendo —y alimenta titulares optimistas sobre la transformación con IA— pero su correlación con valor creado se ha roto por dentro.

Por qué esto importa a cualquier empresa, no solo a Amazon

Es tentador leer esto como un problema exclusivo de las grandes tecnológicas con presupuestos faraónicos. Sería un error. Cualquier empresa que esté midiendo su "adopción de IA" con métricas de actividad —número de consultas a un asistente, porcentaje de empleados con licencia de una herramienta, horas de uso— está expuesta exactamente al mismo sesgo. Una pyme que decide su inversión en IA mirando "cuánta gente la usa" puede estar tomando decisiones sobre un número que mide entusiasmo o cumplimiento formal, no impacto en ingresos, costes o tiempo. El riesgo no es teórico: es presupuesto real asignado a partir de una señal contaminada.

Cómo medir el valor real de la IA

La alternativa no es dejar de medir, sino medir resultados en lugar de actividad. En vez de "cuántas consultas se hicieron al asistente", la pregunta útil es "cuánto tiempo se ahorró en un proceso concreto y verificable", o "cuántos errores se redujeron en una tarea medible", o "qué ingreso adicional o coste evitado se puede atribuir a un caso de uso específico". Eso exige definir el caso de uso antes de comprar la herramienta, fijar una línea base y comparar contra ella. Es menos vistoso que un gráfico de tokens creciendo, pero es lo único que distingue una inversión que retorna de un gasto que solo genera métricas.

El coste oculto de las métricas infladas

Hay un segundo efecto, más silencioso. Cuando las cifras de adopción están infladas, la organización entera toma decisiones equivocadas: se amplían contratos de infraestructura que no hacían falta, se justifican proyectos por su consumo y no por su resultado, y se posterga la pregunta incómoda de si la IA está moviendo de verdad los indicadores del negocio. En una empresa pequeña ese error se nota antes y duele más, porque cada euro mal asignado es un euro que no está en otra parte. La disciplina de medir resultados —y no actividad— no es burocracia: es la defensa más barata contra invertir bien en lo que no aporta.

Tres preguntas antes de tu próxima factura de IA

Para una empresa que ya está pagando por herramientas de IA, conviene parar y responder con honestidad a tres preguntas concretas. Primera: ¿qué proceso específico —con nombre y responsable— es hoy medible mejor que hace tres meses gracias a la IA, y cuál era su línea base? Si no hay respuesta con cifras, se está midiendo actividad, no resultado. Segunda: ¿quién se beneficia de que el número de uso suba? Si la respuesta es "quien lo reporta", el incentivo está mal diseñado y el dato está contaminado en origen. Tercera: ¿qué decisión de inversión cambiaría si ese número fuese la mitad? Si ninguna, entonces ese número no debería estar guiando la inversión. Estas tres preguntas cuestan una reunión y ahorran, a veces, contratos enteros mal justificados.

Conclusión

El "tokenmaxxing" de Amazon no es una historia sobre empleados pícaros, sino sobre lo frágiles que son las métricas cuando se convierten en objetivo. Para cualquier empresa que esté incorporando IA, la lección es directa: desconfía de los indicadores de uso y exige indicadores de resultado. Antes de preguntar "¿cuánta IA estamos usando?", conviene preguntar "¿qué proceso concreto es hoy mejor, más rápido o más barato gracias a ella, y cómo lo demuestro?". La diferencia entre esas dos preguntas es, muchas veces, la diferencia entre una inversión inteligente y un número bonito que no significa nada.

Solicitar diagnóstico gratuito
Asesor VirtualAsesor Virtual 24h