Cómo el Post-Entrenamiento Moldea los Modelos de Razonamiento Biológico | Optimización de LLMs para tareas complejas de ciencia y biología | Mejora de la capacidad de investigación científica en agentes de inteligencia artificial
Abstract
PROBLEMA: Aunque los LLMs generales son potentes, carecen de la profundidad de razonamiento causal necesaria para la investigación biológica avanzada, y no está claro cómo las técnicas de post-entrenamiento (SFT, RLHF) moldean estas capacidades. SOLUCIÓN: Este paper investiga cómo diferentes regímenes de post-entrenamiento influyen en la capacidad del modelo para conectar conceptos biológicos, diseñar experimentos y razonar sobre mecanismos moleculares. METODOLOGÍA: Entrenaron y evaluaron variantes de modelos en el benchmark OpenBioRQ mediante técnicas de alineación y ajuste fino supervisado enfocado en cadenas de razonamiento científico. RESULTADOS: Descubren que el post-entrenamiento específico de dominio es más crucial para el razonamiento lógico que el simple aumento de parámetros, permitiendo que modelos más pequeños superen a gigantes en lógica biológica. RELEVANCIA: Proporciona una hoja de ruta para crear asistentes de IA que realmente asistan en el descubrimiento científico y no solo en la redacción de resúmenes.