Por qué la IA de Anthropic falló al diagnosticar una resonancia médica
Un desarrollador probó Claude Opus 4.8 de Anthropic para leer la resonancia magnética de su propio hombro. El modelo respondió que el tendón estaba intacto. Los médicos reales detectaron una rotura parcial de grado III con el 50% del tendón afectado. El caso demuestra por qué ninguna empresa debería delegar decisiones técnicas críticas en un modelo de IA sin supervisión humana especializada.
El experimento: una resonancia magnética y un algoritmo demasiado seguro
Antoine Finkelstein, desarrollador de software, subió 266 megabytes de imágenes DICOM de la resonancia de su hombro a Claude Opus 4.8. El modelo tardó una hora en procesar el estudio completo y devolvió un veredicto claro: el tendón subescapular estaba intacto, sin rotura parcial ni total. El diagnóstico real, confirmado después por un radiólogo, fue muy distinto. Finkelstein tenía una rotura parcial de grado III, con el 50% del tendón afectado, una lesión que en la práctica clínica suele requerir seguimiento o intervención. La IA no solo se equivocó, lo hizo con la misma seguridad que si hubiera acertado. No hubo matices, ni porcentajes de confianza, ni una recomendación de contrastar el resultado con un especialista. Ese detalle, la seguridad sin fundamento, es el que más preocupa a quienes llevan años trabajando con sistemas de diagnóstico asistido.
Por qué un modelo generalista no puede sustituir a un radiólogo
Claude Opus 4.8 es un modelo de propósito general, entrenado con texto, código e imágenes de todo tipo, no con bases de datos médicas certificadas ni con el volumen de resonancias que ve un radiólogo en una década de práctica clínica. Un radiólogo que participó en el debate técnico posterior comparó el nivel de precisión del modelo con el de un médico residente de primer o segundo año, alguien capaz de detectar patrones evidentes pero sin el criterio necesario para casos límite. La causa no es solo de entrenamiento, también es estructural: los modelos conversacionales están optimizados para responder de forma útil y amable, una tendencia que en medicina se traduce en sesgo de confirmación. Si el usuario espera un todo correcto, el modelo tiende a dárselo. Empresas como Quibim llevan años desarrollando IA médica especializada, entrenada exclusivamente con imágenes diagnósticas y validada clínicamente, un enfoque completamente distinto al de pedirle a un chatbot generalista que lea una prueba médica como quien pide un resumen de un correo.
El riesgo real para las empresas que ya usan IA en procesos críticos
El caso de la resonancia magnética no es un problema exclusivo de la medicina. Es un ejemplo perfecto de lo que ocurre cuando una empresa delega una decisión técnica de alto riesgo en un modelo generalista sin ningún proceso de verificación humana. El patrón se repite en sectores muy alejados de la sanidad. Un departamento legal que usa IA para revisar contratos sin que un abogado valide las cláusulas críticas. Un equipo de facturación que automatiza la clasificación de documentos fiscales sin auditoría periódica. Una clínica dental que deja que un asistente virtual filtre urgencias sin protocolo de escalado a personal humano. En todos estos casos, el fallo no está en usar IA, sino en usarla como sustituto en lugar de como herramienta de apoyo. La diferencia entre ambos enfoques es la que separa un proceso de automatización bien diseñado de un riesgo operativo real, con consecuencias legales, económicas o incluso, como en este caso, de salud.
Cómo verificar si tu empresa puede confiar en un modelo de IA
Antes de automatizar cualquier proceso con IA conviene aplicar tres preguntas: si el modelo fue entrenado o ajustado para esta tarea específica, si existe un punto de verificación humana en las decisiones de mayor riesgo, y si el sistema comunica su nivel de incertidumbre en lugar de responder siempre con la misma seguridad. La respuesta suele marcar la diferencia entre un proceso automatizado fiable y uno que solo parece fiable hasta que falla.
| Tipo de sistema | Fiabilidad en tareas técnicas | Cuándo usarlo sin supervisión |
|---|---|---|
| Modelo generalista (Claude, GPT, Gemini) | Bajo en tareas de alta especialización | Nunca en decisiones críticas sin revisión humana |
| Modelo especializado y validado clínicamente | Alto dentro de su dominio entrenado | Como apoyo al diagnóstico, siempre con firma de un profesional |
| Modelo generalista con supervisión humana estructurada | Alto en procesos administrativos repetitivos | Tareas de bajo riesgo con puntos de control definidos |
Preguntas frecuentes
¿Puede la IA sustituir a un médico en el diagnóstico por imagen?
No. Los modelos generalistas actuales, incluido Claude Opus 4.8, no alcanzan la precisión necesaria para sustituir a un radiólogo. Su nivel se compara con el de un médico residente de primer año, útil como apoyo pero no como decisión final.
¿Por qué la IA respondió con tanta seguridad si se equivocó?
Los modelos conversacionales están optimizados para dar respuestas útiles y directas, lo que genera sesgo de confirmación. Sin un mecanismo explícito de incertidumbre, el modelo comunica el mismo nivel de confianza acierte o falle.
¿Qué debe hacer una empresa antes de automatizar una decisión con IA?
Definir un punto de verificación humana en las decisiones de mayor riesgo, usar modelos entrenados específicamente para la tarea cuando exista esa opción, y auditar los resultados de forma periódica en lugar de asumir que el sistema acierta siempre.
Conclusión
El caso de Antoine Finkelstein no es una anécdota curiosa sobre un desarrollador que jugó con Claude. Es un aviso claro sobre los límites reales de la IA generalista en 2026, justo cuando más empresas la están incorporando a procesos donde un error no es solo incómodo, sino costoso. La tecnología ha avanzado muchísimo en programación, análisis de texto y automatización de tareas repetitivas. Pero seguir tratando a un modelo conversacional como si fuera un especialista certificado, ya sea en medicina, en derecho o en finanzas, sigue siendo un error caro. La pregunta que debería hacerse cualquier empresa antes de automatizar un proceso crítico no es si la IA puede hacerlo, sino qué pasa el día que se equivoca con la misma seguridad que si hubiera acertado.