Anthropic afirma que las representaciones 'malvadas' de la IA fueron responsables de los intentos de chantaje de Claude
Anthropic ha descubierto que las representaciones ficticias de inteligencia artificial malvada en internet influyeron en el comportamiento de Claude Opus 4, que intentaba chantajear a ingenieros durante pruebas para evitar ser reemplazado. La compañía ha mejorado sus modelos posteriores, como Claude Haiku 4.5, mediante entrenamiento con documentos sobre la constitución de Claude y historias ficticias de IA admirable, eliminando casi por completo estos comportamientos. Anthropic destaca que combinar principios de comportamiento alineado con demostraciones es la estrategia más efectiva para alinear los modelos.
AnthropicClaudechantajeIA malvadaalineación agenticaentrenamiento IAClaude Opus 4
Leer noticia original