Una revisión sistemática publicada en Frontiers of Engineering Management (2025) ha cartografiado la doble naturaleza de los modelos de lenguaje extensos (LLM, por sus siglas en inglés), identificándolos como herramientas poderosas para la innovación que simultáneamente introducen riesgos significativos de seguridad y ética. La investigación, realizada por un equipo de la Universidad Jiao Tong de Shanghái y la Universidad Normal del Este de China, analizó 73 artículos clave de más de 10,000 documentos para proporcionar una evaluación integral de amenazas que van desde ciberataques hasta sesgos sociales. Los hallazgos del estudio, disponibles a través de https://doi.org/10.1007/s42524-025-4082-6, subrayan que la rápida adopción de LLM como GPT, BERT y T5 en educación, atención médica y gobernanza digital requiere atención urgente tanto a defensas técnicas como a supervisión ética.
La revisión categoriza las amenazas relacionadas con los LLM en dos dominios principales: riesgos basados en mal uso y ataques maliciosos dirigidos a los modelos mismos. El mal uso incluye la generación de correos electrónicos de phishing altamente fluidos, la creación automatizada de scripts de malware, la suplantación de identidad y la producción a gran escala de información falsa. Los ataques maliciosos ocurren tanto a nivel de datos/modelo—como inversión de modelo, envenenamiento y extracción—como a nivel de interacción del usuario mediante técnicas como inyección de instrucciones y jailbreaking. Estos métodos pueden potencialmente acceder a datos de entrenamiento privados, eludir filtros de seguridad o coaccionar a los modelos para que generen contenido dañino, planteando amenazas directas a la seguridad de datos y la confianza pública.
En respuesta a estas amenazas en evolución, el estudio evalúa las estrategias de defensa actuales, que incluyen tres enfoques técnicos principales. El procesamiento de parámetros busca reducir la exposición a ataques eliminando parámetros redundantes del modelo. El preprocesamiento de entrada implica parafrasear instrucciones del usuario o detectar desencadenantes adversarios sin requerir reentrenamiento del modelo. El entrenamiento adversario, incluyendo marcos de red-teaming, simula ataques para mejorar la robustez del modelo. La investigación también destaca tecnologías de detección como la marca de agua semántica y herramientas como CheckGPT, que pueden identificar texto generado por modelos con tasas de precisión de hasta 98–99%. Sin embargo, los autores señalan que las defensas frecuentemente van a la zaga del ritmo de las técnicas de ataque en evolución, indicando una necesidad apremiante de soluciones escalables, rentables y adaptativas multilingües.
Más allá de las salvaguardas técnicas, el estudio enfatiza que la gobernanza ética es igualmente crítica. Los investigadores argumentan que riesgos como la alucinación del modelo, el sesgo social incorporado, la filtración de privacidad y la diseminación de desinformación representan desafíos a nivel social, no meramente problemas de ingeniería. Para fomentar la confianza en los sistemas basados en LLM, el desarrollo futuro debe integrar principios de transparencia, trazabilidad de contenido verificable y supervisión interdisciplinaria. La implementación de marcos de revisión ética, mecanismos de auditoría de conjuntos de datos y educación de concienciación pública se considera esencial para prevenir el mal uso y proteger a poblaciones vulnerables.
Las implicaciones de esta investigación se extienden a múltiples sectores. Los sistemas de defensa efectivos podrían ayudar a proteger a las instituciones financieras de esquemas de phishing sofisticados, reducir la propagación de desinformación médica y mantener la integridad científica. Técnicas como la trazabilidad basada en marcas de agua y el red-teaming pueden evolucionar hacia estándares de la industria para el despliegue responsable de modelos. El estudio concluye que el desarrollo seguro y ético de los LLM moldeará fundamentalmente la adopción social de la inteligencia artificial. Los investigadores abogan por trabajos futuros centrados en la gobernanza responsable de la IA, marcos regulatorios unificados, conjuntos de datos de entrenamiento más seguros y una mayor transparencia en los informes de modelos. Con un esfuerzo coordinado, los LLM tienen el potencial de madurar como herramientas confiables que apoyen la educación, la atención médica digital y los ecosistemas de innovación, minimizando al mismo tiempo los riesgos asociados con la ciberdelincuencia y la desinformación social.

