El informe de evaluación más reciente del Instituto de Seguridad de la IA del Reino Unido (AISI) muestra que el modelo de Claude Mythos Preview de Anthropic puede completar de forma autónoma una simulación completa de ataque a redes empresariales de 32 pasos en un entorno controlado. En desafíos de CTF de nivel experto, logra una tasa de éxito del 73%, lo que marca que la capacidad de ataque cibernético de la IA ha superado un umbral clave.
(Antecedentes: Claude ya admite oficialmente modificar archivos de Word, almacenar flujos de trabajo como habilidades, skill, y la integración de la suite Microsoft Office completa)
(Añadido de contexto: Informe de decenas de miles de palabras sobre el índice económico de Anthropic AI: la frecuencia de flujos de trabajo de trading automatizado se duplica; Claude está pasando de ser una herramienta a un asistente de vida)

Tabla de contenidos

Toggle

Evaluación de CTF: tasa de logro del 73% en nivel experto
Superar 32 pasos de simulación de ataques empresariales
Límites de capacidad
Espada de doble filo y respuesta de las organizaciones

El Instituto de Seguridad de la IA del Reino Unido (AISI) publicó el 13 un informe de evaluación de capacidades de ciberseguridad dirigido a Anthropic Claude Mythos Preview. Los resultados de la evaluación muestran que, en el contexto de una mejora rápida y continua de las capacidades de ataque a redes de modelos de vanguardia, Mythos Preview representa otro salto de capacidad significativo.

AISI, desde 2023, sigue las capacidades de ataque cibernético de la IA y, año tras año, construye un sistema de evaluación con dificultad creciente: desde la exploración conversacional básica, pasando por desafíos de Capture The Flag (CTF), hasta ahora simulaciones de ataques de red de múltiples pasos. En esta evaluación se utilizó un presupuesto de inferencia máximo de 100 millones de tokens para ejecutar un campo de pruebas de red, y el rendimiento de Mythos Preview sigue creciendo dentro de este límite.

Evaluación de CTF: tasa de logro del 73% en nivel experto

El Capture The Flag (CTF) es uno de los métodos estándar de evaluación de ciberseguridad: el modelo de IA debe encontrar vulnerabilidades en el sistema objetivo y explotarlas para obtener cadenas de “bandera” ocultas. Este tipo de desafío simula un único componente técnico dentro de un escenario real de ataque, y es un indicador de referencia para medir la capacidad de pruebas de penetración del modelo.

Los resultados muestran que, en tareas CTF de nivel experto en las que “ningún modelo podía completarlas antes de abril de 2025”, la tasa de éxito de Claude Mythos Preview alcanza el 73%. AISI señala que esta cifra indica que los modelos de vanguardia han alcanzado un nivel altamente maduro en técnicas de ataque de punto único, en entornos aislados.

Superar la simulación de ataques empresariales de 32 pasos

Sin embargo, el CTF de nivel experto solo prueba una capacidad técnica única. Los ataques cibernéticos del mundo real requieren enlazar decenas de pasos entre múltiples hosts y distintos segmentos de red; estas acciones persistentes a menudo necesitan que expertos humanos inviertan horas, días o incluso semanas en completarlas.

Para acercarse más a escenarios reales de ataque, AISI estableció un campo de pruebas de simulación de ataques a redes empresariales llamado “The Last Ones” (TLO). TLO cuenta con 32 pasos, que abarcan todo el proceso desde la exploración inicial hasta el control completo de la red empresarial. AISI estima que el personal profesional humano necesita aproximadamente 20 horas para completar este proceso.

Claude Mythos Preview se convirtió en el primer modelo en la historia en pasar de principio a fin de forma completa por TLO: en 10 intentos, lo completó completamente en 3 ocasiones, siguiendo los 32 pasos. Incluso contando los intentos fallidos, el número medio de pasos completados por Mythos Preview es de 22/32. En comparación, Claude Opus 4.6, que tuvo el segundo mejor desempeño, completó en promedio solo 16 pasos.

La evaluación muestra que, en un entorno controlado con instrucciones claras y proporcionando permisos de acceso a la red, Mythos Preview puede ejecutar ataques de múltiples fases y, de forma autónoma, descubrir y explotar vulnerabilidades; tareas que antes requerían que expertos humanos invirtieran varios días.

Límites de capacidad

AISI también añadió que existe una brecha entre los marcos de evaluación actuales y el mundo real. El campo de pruebas actual carece de varios elementos de defensa habituales en entornos reales: no hay defensores que intervengan activamente, no se despliegan herramientas de defensa y las acciones del modelo que podrían activar alertas de seguridad tampoco reciben ninguna penalización.

AISI reconoce: “Esto significa que no podemos determinar si Mythos Preview puede atacar sistemas con defensas bien establecidas”. La capacidad que muestra Mythos Preview, descrita de forma más precisa, es: en el supuesto de contar ya con un punto de entrada a la red, puede atacar de manera autónoma sistemas empresariales más pequeños, con defensas débiles y con vulnerabilidades conocidas.

Espada de doble filo y respuesta de las organizaciones

Las conclusiones de AISI señalan directamente la doble naturaleza de la capacidad cibernética de la IA. Por un lado, en el futuro seguirán apareciendo más modelos con capacidades similares, lo que representa un riesgo cada vez más evidente para organizaciones con defensas débiles; por otro lado, la capacidad cibernética de la IA también puede aportar mejoras rompedoras en el lado defensivo.

En cuanto a la respuesta de las organizaciones, AISI enfatiza la urgencia de los conocimientos básicos de ciberseguridad: aplicar periódicamente actualizaciones de seguridad, controles de acceso sólidos, gestión de configuración segura y un registro completo de eventos. AISI indica que las capacidades de los modelos de vanguardia en el futuro serán más fuertes, y que invertir ahora en la construcción de defensas de red es crucial.

Sobre las futuras direcciones de evaluación, AISI afirma que establecerá campos de pruebas que simulen el refuerzo y entornos de defensa, incorporando elementos como monitoreo activo, detección de endpoints y respuesta inmediata a incidentes, para medir el límite real de la capacidad de ataque cibernético de la IA de una manera más cercana a escenarios de ataque reales.

Consulte el informe detallado en 【original】

Ver fuente

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.