VectorCertain valida detección y prevención del 100% frente a vectores de amenaza del AI Mythos de Anthropic

VectorCertain LLC anunció resultados de validación que muestran que su canal de gobernanza SecureAgent logró un 100% de detección y prevención en 7.000 escenarios adversarios alineados con los siete vectores de amenaza del Mythos de Anthropic. Las pruebas demostraron que ningún ataque alcanzó los sistemas de producción, con un límite inferior estadístico de ≥99,65% en la tasa de detección y prevención con un 99,7% de confianza utilizando el método binomial exacto de Clopper-Pearson.

La importancia de esta validación surge de la decisión de Anthropic de retener su modelo de IA Claude Mythos Preview del lanzamiento público debido a capacidades avanzadas de ciberseguridad que podrían descubrir, encadenar y explotar vulnerabilidades de software de forma autónoma. Como se documenta en el Blog Anthropic Glasswing, Mythos demostró habilidades que superan a todos excepto a los hackers humanos más expertos, incluyendo el hallazgo de vulnerabilidades de hasta 27 años de antigüedad que habían pasado desapercibidas para sus creadores.

VectorCertain generó 1.000 escenarios adversarios para cada uno de los siete vectores de amenaza de Mythos: Explotación Autónoma de Múltiples Pasos, Expansión de Alcance No Autorizada, Razonamiento Engañoso Invisible, Manipulación de Registros para Cubrir Huellas, Acceso al Sistema mediante Robo de Credenciales, Explotación de Escape de Sandbox y Proliferación de Capacidades. En todos los 7.000 escenarios, SecureAgent logró un 100% de recuperación, lo que significa que cada ataque fue detectado y prevenido antes de su ejecución, con solo 30 falsos positivos que representan el 0,43% de los escenarios benignos.

El Programa de Certificación de Ciberseguridad MYTHOS de la empresa representa el primer estándar de gobernanza de IA que combina umbrales de rendimiento cuantificados, rigor estadístico y garantías de crédito de servicios financieros frente a una taxonomía de amenazas específica. Esto aborda el vacío identificado por el programa AIQ de DARPA, que reconoció que "los métodos para garantizar el rendimiento de la IA no existen hoy" según el anuncio del programa DARPA AIQ.

SecureAgent opera a través de una arquitectura de defensa de dos capas que gobierna el ciclo de vida completo del agente de IA. La primera capa controla qué información ingresa a la memoria del agente de IA, mientras que la segunda capa evalúa cada acción a través de cuatro puertas secuenciales antes de la ejecución. El sistema procesa 44 reglas en cinco capas arquitectónicas en menos de 10 milisegundos por evaluación, con 13 micromodelos de discriminación que proporcionan clasificación de huellas dactilares de comportamiento.

Las implicaciones para la industria son sustanciales dado que los marcos regulatorios actuales carecen de requisitos de rendimiento específicos. El Marco de Gestión de Riesgos de IA del NIST prescribe cero umbrales numéricos, mientras que ISO/IEC 42001:2023 es completamente orientado a procesos sin requisitos de tasas de detección o prevención. La Ley de IA de la UE difiere todas las métricas específicas a estándares armonizados que aún no existen, a pesar de una fecha límite de cumplimiento en agosto de 2026.

La validación de VectorCertain incluye conformidad con el Marco de Gestión de Riesgos de IA para Servicios Financieros CRI y la metodología de las Evaluaciones MITRE ATT&CK. En la evaluación interna de la empresa contra la metodología TES publicada por MITRE, SecureAgent logró un TES de 1,9636 sobre 2,0 en 14.208 pruebas, 38 técnicas y tres perfiles de adversario sin fallos.

El contexto económico subraya la importancia de estas capacidades. La investigación de IBM Security muestra que la gobernanza de IA con enfoque de prevención ahorra $2,22 millones por incidente en comparación con los enfoques de detección y respuesta, mientras que las pérdidas globales por ciberseguridad y fraude alcanzaron los $485.600 millones en 2023 según datos de Nasdaq Verafin. Con pérdidas por ataques específicos de IA proyectadas en $15.000 millones para 2024, la necesidad de mecanismos de prevención validados se ha vuelto urgente.

VectorCertain planea lanzar SecureAgent Consumer Edition dentro de 60 días como una extensión del navegador Chrome que lleva el mismo canal de gobernanza a usuarios individuales. El Programa de Certificación MYTHOS de la empresa ofrece tres niveles: MYTHOS Certified con garantías de recuperación ≥99,0%, MYTHOS Certified Plus con garantías adicionales de tasa de intervención humana, y MYTHOS Enterprise para servicios financieros e industrias reguladas con documentación lista para cumplimiento normativo.

La investigación independiente respalda los principios arquitectónicos subyacentes al enfoque de SecureAgent. Artículos como "Seguridad de IA Agéntica: Amenazas, Defensas, Evaluación y Desafíos Abiertos" de arXiv:2510.23883 y "Un Marco de Seguridad y Protección para Sistemas Agénticos del Mundo Real" de arXiv:2511.21990 validan la necesidad de aplicación de seguridad en tiempo de ejecución y gobernanza previa a la ejecución que SecureAgent implementa.

Los resultados de validación posicionan a VectorCertain como solución a lo que el Director de Tecnología de CrowdStrike describió como la ventana colapsada entre el descubrimiento de vulnerabilidades y la explotación, donde "lo que antes tomaba meses ahora ocurre en minutos con IA". Esta capacidad complementa la misión de descubrimiento de vulnerabilidades del Proyecto Glasswing al proporcionar la capa de prevención que detiene a los agentes de IA autónomos de ejecutar ataques antes de que se puedan implementar parches.

VectorCertain valida detección y prevención del 100% frente a vectores de amenaza del AI Mythos de Anthropic

La rédaction de Burstable.News