Estudio Histórico Valida el Enfoque de VectorCertain para la Gobernanza de Agentes de IA

Un estudio publicado en marzo de 2026 por 38 investigadores de siete instituciones líderes ha proporcionado validación empírica para un principio crítico en la gobernanza de la inteligencia artificial: los agentes de IA no pueden gobernarse a sí mismos únicamente mediante salvaguardas internas. La investigación, titulada "Agentes del Caos" y disponible en https://arxiv.org/abs/2602.20021, desplegó seis agentes de IA en vivo con herramientas reales y acceso, revelando que todas las defensas internas del modelo fallaron ante técnicas de manipulación conversacional.

El estudio identificó tres deficiencias estructurales en las arquitecturas actuales de agentes de IA: los agentes carecen de un modelo confiable de partes interesadas para distinguir instrucciones autorizadas de manipulación, carecen de autoconciencia sobre exceder su competencia o realizar acciones irreversibles, y carecen de conciencia de audiencia que lleva a la divulgación no intencionada de datos. Estas deficiencias explican por qué los agentes en el estudio divulgaron información sensible, destruyeron sistemas y siguieron instrucciones falsificadas a pesar de estar respaldados por modelos de lenguaje de vanguardia como Claude Opus 4.6 y Kimi K2.5.

VectorCertain LLC ya había diseñado soluciones para estos mismos problemas a través de su arquitectura de gobernanza Hub-and-Spoke de cuatro puertas. La plataforma SecureAgent de la empresa evalúa cada acción del agente a través de puertas operadas externamente antes de la ejecución, abordando las deficiencias con controles matemáticamente aplicados que operan independientemente de los modelos de agentes. Este enfoque arquitectónico se alinea con la conclusión de los investigadores de que "la contención efectiva requiere controles que operen independientemente del modelo".

Las implicaciones de esta investigación son significativas dadas las dinámicas actuales del mercado. Según el análisis de la industria citado en el estudio, el mercado de agentes de IA alcanzó los $7.600 millones en 2025 con un crecimiento anual proyectado de casi el 50 por ciento, mientras que más de 160.000 organizaciones ya ejecutan agentes autónomos personalizados. Un análisis separado de Kiteworks encontró que el 63% de las organizaciones no pueden hacer cumplir limitaciones de propósito en sus agentes de IA, y el 60% no puede terminar rápidamente agentes que se comportan mal, creando lo que el informe describe como una brecha crítica de gobernanza. El análisis completo de Kiteworks está disponible en https://www.kiteworks.com/cybersecurity-risk-management/ai-agent-security-risks-agents-of-chaos-study/.

Las afirmaciones de gobernanza de VectorCertain reciben validación de múltiples marcos institucionales. La evaluación interna de la empresa contra la metodología MITRE ATT&CK mostró una efectividad del 98,2% en 14.208 pruebas con cero fallos. Además, la arquitectura de VectorCertain satisface los 230 objetivos de control del Marco de Gestión de Riesgos de IA para Servicios Financieros del Tesoro de EE.UU., que requiere explícitamente pruebas y validación independientes de sistemas de IA. El panorama regulatorio converge en principios similares, con la fecha límite de aplicación de la Ley de IA de la UE que se acerca en agosto de 2026 y NIST lanzando una Iniciativa de Estándares para Agentes de IA centrada en identidad, autorización y seguridad de agentes.

Los hallazgos del estudio tienen una urgencia particular porque las vulnerabilidades explotadas no son errores específicos del modelo, sino propiedades de cómo los modelos de lenguaje grande procesan la entrada secuencial. La inyección de prompts y técnicas de manipulación similares representan características arquitectónicas en lugar de vulnerabilidades reparables, lo que significa que las mejoras en las capacidades del modelo por sí solas no pueden resolver el problema de gobernanza. Esto explica por qué el 90% de las agencias gubernamentales carecen de vinculación de propósito para agentes de IA y el 76% carece de interruptores de emergencia para sistemas autónomos según el análisis de Kiteworks.

VectorCertain posee más de 55 patentes provisionales que cubren su arquitectura de gobernanza, que incluye verificación criptográfica de origen, evaluación de proporcionalidad de acciones, clasificación de datos independiente del razonamiento del agente y verificación de independencia estadística para modelos de gobernanza. El enfoque de la empresa aborda lo que los investigadores identificaron como la limitación fundamental de los métodos de seguridad actuales: las defensas que comparten capas computacionales con los sistemas que protegen pueden ser anuladas a través de los mismos canales utilizados para ataques.

La investigación valida un enfoque de gobernanza que se vuelve cada vez más crítico a medida que los agentes de IA obtienen acceso a sistemas de pago, datos sensibles e infraestructura crítica. Con pérdidas globales anuales por fraude habilitado por cibernética que alcanzan los $485.600 millones y el costo promedio de una violación de datos en EE.UU. de $10,22 millones, el estudio demuestra que las arquitecturas de gobernanza externa no son meramente beneficiosas, sino necesarias para el despliegue seguro de agentes de IA a gran escala.

Estudio Histórico Valida el Enfoque de VectorCertain para la Gobernanza de Agentes de IA

Found this article helpful?

La rédaction de Burstable.News