19 de marzo de 2026

El impacto del alineamiento en la naturaleza normativa de los LLMs | Por qué los modelos de lenguaje prefieren ser correctos éticamente que precisos fácticamente | Análisis del sesgo normativo vs descriptivo en modelos alineados por RLHF

AI Alignmentalineamiento de IANormative vs Descriptivenormativo vs descriptivoRLHFLlama alignmentModel behavior

Abstract

PROBLEMA: Existe una tendencia creciente a que los Modelos de Lenguaje Grande (LLMs) respondan basándose en cómo "deberían" ser las cosas (normativo) en lugar de cómo "son" en realidad (descriptivo), lo que puede comprometer la precisión factual. SOLUCIÓN: Este paper analiza cómo los procesos de alineamiento, como el RLHF, transforman la naturaleza de las respuestas de los modelos, inclinándolos hacia el cumplimiento de normas sociales y éticas incluso cuando se les pide descripciones objetivas. METODOLOGÍA: Los autores comparan modelos base contra sus versiones alineadas utilizando un conjunto de datos diseñado para distinguir entre hechos descriptivos y juicios normativos. RESULTADOS: Se demuestra cuantitativamente que el alineamiento aumenta la probabilidad de que el modelo ignore hechos estadísticos o descriptivos si estos entran en conflicto con las guías de seguridad o cortesía infundidas. RELEVANCIA: Vital para entender las alucinaciones "por diseño" y mejorar la capacidad de los sistemas RAG de extraer información objetiva sin el filtro de valores del modelo.

Leer paper original

Volver a Papers IA