Hugging Face

Las evaluaciones de seguridad deben proyectar el cómputo en tiempo de prueba

13 de mayo de 2026

Tommaso Cerruti argumenta que las evaluaciones de seguridad de modelos de IA son insuficientes si no consideran el cómputo en tiempo de prueba (TTC), ya que sistemas aparentemente seguros bajo presupuestos limitados pueden volverse vulnerables ante esfuerzos adversarios mayores, adaptativos y económicamente racionales. Propone etiquetar las evaluaciones por presupuesto y proyectar curvas de riesgo hacia niveles de cómputo más altos relevantes para atacantes reales. Destaca mecanismos como consistencia propia, búsqueda en árbol, muestreo best-of-N, demostraciones de contexto largo y andamios agenticos que escalan capacidades y riesgos durante la inferencia. Aborda la asimetría económica entre evaluadores y adversarios, y la asequibilidad de evaluaciones de alto esfuerzo. Recomienda un protocolo mínimo TTC-aware que mida riesgos en múltiples niveles de esfuerzo, tipos de atacantes y presupuestos, separando resultados observados de proyecciones.

evaluaciones de seguridadcómputo en tiempo de pruebaTTCcurvas de riesgoataques adversariosagentes LLMjailbreaking

Leer noticia original

Volver a Noticias IA