Anthropic, Cloudflare y el problema de una IA que ya no solo detecta bugs, sino que entiende cómo explotarlos

El modelo experimental “Mythos” fue probado contra más de 50 repositorios de producción de Cloudflare. Según la compañía, logró encadenar vulnerabilidades menores hasta construir exploits funcionales.

may 22, 2026

La industria de la inteligencia artificial lleva meses prometiendo que los nuevos modelos van a transformar la ciberseguridad. Lo interesante del caso Mythos es que, por primera vez, algunas empresas parecen estar sugiriendo que esa transformación ya empezó.

Esta semana, el CISO de Cloudflare publicó detalles sobre las pruebas realizadas con Mythos Preview, un modelo experimental de Anthropic utilizado dentro del programa privado Project Glasswing. Según la compañía, el sistema fue capaz de analizar más de 50 repositorios internos y detectar cadenas de explotación complejas que modelos anteriores simplemente no lograban conectar.

La diferencia, según describen, no estuvo únicamente en encontrar vulnerabilidades individuales. Los modelos tradicionales podían señalar comportamientos sospechosos o marcar posibles bugs “interesantes”, aunque muchas veces dejaban abierta la pregunta más importante: si el fallo era realmente explotable o si se trataba apenas de una posibilidad teórica.

Mythos, aparentemente, avanzó un paso más allá. Cloudflare asegura que el modelo pudo combinar múltiples fallos de bajo impacto y transformarlos en un exploit severo con prueba de concepto funcional. En otras palabras, ya no se limitaría a decir “acá podría haber algo raro”, sino que sería capaz de demostrar exactamente cómo convertirlo en un ataque real.

Para equipos de seguridad, eso cambia bastante el escenario. Un hallazgo acompañado de un PoC deja de ser una hipótesis técnica y pasa a convertirse en una amenaza concreta que requiere acción inmediata.

Un modelo que todavía nadie puede auditar realmente

Sin embargo, hay un detalle importante que suele perderse entre el hype técnico: prácticamente toda la información disponible sobre Mythos proviene de un grupo extremadamente reducido de empresas seleccionadas por Anthropic.

Y todas comparten algo en común: son gigantes tecnológicos estadounidenses.

El programa Project Glasswing incluye (o incluyó) compañías como Apple, AWS, Google, Microsoft, NVIDIA, CrowdStrike, Palo Alto Networks y posteriormente Cloudflare. No hay universidades independientes, no hay auditorías públicas, no hay comunidad de investigación abierta y tampoco existen benchmarks verificables fuera del entorno controlado por las propias empresas involucradas.

Eso no significa necesariamente que Cloudflare esté exagerando resultados. Pero sí implica que el ecosistema alrededor de Mythos tiene incentivos bastante fuertes para posicionar al modelo como algo revolucionario.

Después de todo, las empresas que participan en estas pruebas son las mismas que eventualmente podrían integrar, comercializar o beneficiarse económicamente de este tipo de capacidades avanzadas.

En la práctica, hoy el público no tiene manera real de saber qué tan consistente es Mythos, qué cantidad de falsos positivos genera, cuáles son sus limitaciones o incluso cuánto de lo mostrado responde a capacidades genuinamente novedosas y cuánto corresponde a escenarios cuidadosamente seleccionados.

La propia Cloudflare reconoce algo que resulta particularmente llamativo: el modelo utilizado en estas pruebas no incluía varias de las salvaguardas presentes en productos comerciales más públicos como Claude Opus 4.7 o GPT-5.5.

Según la empresa, Mythos posee ciertos “rechazos orgánicos” ante pedidos peligrosos, pero esos mecanismos no son lo suficientemente consistentes como para actuar como barrera de seguridad confiable. Dicho de otra forma, el modelo a veces decide no ayudar, pero no hay garantías reales de que vaya a hacerlo siempre.

Y ahí aparece uno de los puntos más delicados de toda esta historia.

La nueva carrera tecnológica no gira solamente alrededor de chatbots

Durante años, buena parte del debate público sobre IA estuvo centrado en productividad, generación de contenido o automatización de tareas creativas. Mientras tanto, en paralelo, las grandes tecnológicas comenzaron una carrera mucho menos visible: desarrollar modelos capaces de razonar sobre vulnerabilidades, infraestructura y explotación ofensiva.

Lo que sugiere el caso Mythos es que los laboratorios más avanzados podrían estar acercándose a sistemas que ya no solo ayudan a programar o analizar logs, sino que empiezan a automatizar partes del razonamiento ofensivo que antes requerían investigadores altamente especializados.

Eso tiene implicancias enormes para la industria de ciberseguridad, pero también para la geopolítica tecnológica.

Porque cuando las capacidades más avanzadas de descubrimiento y explotación de vulnerabilidades quedan concentradas en un pequeño grupo de corporaciones estadounidenses con acceso privilegiado a modelos cerrados, la discusión deja de ser puramente técnica. También pasa a involucrar soberanía digital, dependencia tecnológica y concentración de poder.

Hoy el acceso a Mythos está limitado. Pero incluso las propias empresas que participan del proyecto parecen admitir que el modelo es suficientemente sensible como para no liberarlo todavía de forma abierta.

Y quizás eso sea lo más interesante de todo: el verdadero alcance de estas capacidades probablemente todavía esté ocurriendo detrás de puertas cerradas.

Ojo Cibernético

Discusión sobre este post

Por supuesto, sigue adelante.