Presentamos el proyecto de fin de máster Modelos de Lenguaje para Detección de Vulnerabilidades en un Día, una propuesta innovadora de Q2BSTUDIO diseñada para automatizar y acelerar la detección de vulnerabilidades publicadas en registros CVE conocidas como one-day vulnerabilities. Q2BSTUDIO es una empresa de desarrollo de software y aplicaciones a medida especializada en inteligencia artificial, ciberseguridad y servicios cloud aws y azure, que ofrece soluciones integrales desde software a medida hasta servicios de inteligencia de negocio y power bi.
Problema Detectar vulnerabilidades one-day es crítico porque, tras hacerse pública la información en un CVE, muchas organizaciones tardan en parchear sus sistemas, dejando ventanas de exposición aprovechables por atacantes. La gran huella digital de las empresas modernas exige herramientas automáticas y escalables que reduzcan la latencia entre la divulgación y la mitigación. Los enfoques manuales consumen tiempo y recursos, y requieren equipos altamente especializados para identificar fallos en aplicaciones complejas. Es necesario un sistema que explore, identifique y proponga mitigaciones de forma rápida y reproducible, ideal para entornos que requieren pruebas de seguridad regulares y auditorías continuas.
Solución propuesta La solución desarrollada integra modelos de lenguaje de gran tamaño en un sistema multiagente que distribuye tareas de pentesting entre agentes especializados. El flujo comienza con un agente de exploración que analiza el objetivo, identifica campos de entrada y endpoints y construye un mapa inicial del ataque. Un agente supervisor correlaciona zonas relevantes con CVE conocidos y prioriza vectores de ataque. Agentes específicos de vulnerabilidad prueban técnicas concretas como SQL Injection y Cross Site Scripting para extraer información contextual de los CVE. Finalmente, agentes de fuzzer y de ejecución generan y prueban payloads para confirmar explotación. El resultado es un informe detallado que incluye debilidades detectadas, ubicaciones, payloads de prueba y recomendaciones de mitigación.
Arquitectura y metodología El sistema utiliza un patrón multiagente implementado con LangGraph y modelos económicos y potentes como GPT-4o-mini. Cada agente dispone de un prompt personalizado, un esquema de salida definido y ejemplos de ataques para guiar la búsqueda. Para equilibrar la detección de firmas conocidas y la exploración de entradas nuevas, la arquitectura divide el trabajo en dos subgrupos: uno que sigue firmas y patrones extraídos de CVE y otro que se centra en la aleatorización de entradas y ejecución práctica. La comunicación directa entre agentes se gestiona mediante un marco conversacional diseñado para transferencias de contexto eficientes, reduciendo llamadas innecesarias al LLM y optimizando costes y latencia.
Implementación La implementación se basa en la librería LangGraph y en un bucle iterativo por agente hasta alcanzar la solución o superar un número máximo de pasos. Esta topología facilita que cada nodo comparta mensajes y contexto útil con sus sucesores. El uso de GPT-4o-mini permite mantener costes bajos mientras se aprovechan capacidades avanzadas de comprensión y generación de texto. La solución está pensada para integrarse con pipelines de pruebas y procesos de desarrollo seguro, y puede conectarse a plataformas de CI/CD para auditorías automatizadas.
Pruebas y entorno controlado Para validar la eficacia se emplearon aplicaciones deliberadamente vulnerables como los entornos OWASP Vulnerable Web Application y Acunetix VulnWeb. De ese modo es posible comparar los hallazgos del sistema con el número de vulnerabilidades confirmadas en cada objetivo. En cada ensayo el sistema recibió la URL objetivo y debía devolver las vulnerabilidades detectadas, su localización, pruebas de concepto y recomendaciones de mitigación. Así se pudo medir precisión, recall, falsos positivos y tiempo hasta la detección frente a pruebas manuales.
Resultados y coste Se realizaron nueve ensayos cubriendo niveles de SQLi y XSS en OWASP y Acunetix. El sistema alcanzó una tasa de acierto de 89.5 por ciento y un tiempo medio por ensayo de 27.2 segundos. En términos de coste, el uso de GPT-4o-mini resulta accesible con tarifas muy reducidas por millón de tokens, de modo que incluso sesiones con muchos pasos mantienen un coste marginal, por ejemplo una ejecución de 100 pasos puede costar alrededor de 0.12 dólares en consumo de modelo. El informe generado por el sistema incluye elementos detectados, vulnerabilidades, ubicación, estrategias de mitigación y payloads de fuzzing, proporcionando un análisis completo y accionable.
Limitaciones y retos actuales Aunque la arquitectura demuestra un rendimiento prometedor, existen limitaciones conocidas. Las alucinaciones del modelo pueden provocar transferencias de contexto erróneas entre agentes, aumentando pasos inútiles y a veces provocando fallos en la sesión hasta que se retoma la ejecución. Esta es una limitación inherente a las plataformas LLM actuales y su mitigación depende de mejoras en el modelo o de técnicas adicionales de supervisión. Otro reto es la cobertura de ataques: en la versión actual el sistema se centra en SQL Injection y XSS, por lo que debe ampliarse con nodos y prompts especializados para cubrir otros vectores web y de infraestructura.
Ventajas para empresas y aplicaciones prácticas Para empresas que desarrollan aplicaciones a medida o software a medida, disponer de una herramienta automatizada que detecte one-day vulnerabilities reduce el riesgo operativo y mejora la postura de seguridad. En Q2BSTUDIO incorporamos estas capacidades dentro de propuestas más amplias que incluyen servicios de consultoría en ciberseguridad y pentesting, integración con servicios cloud aws y azure y soluciones de inteligencia artificial y ia para empresas. Si deseas profundizar en cómo integrarnos en procesos de desarrollo seguro, visita nuestra página de servicios de ciberseguridad y pentesting y descubre cómo podemos adaptar la solución a tu stack.
Futuro y roadmap El siguiente paso consiste en ampliar la librería de agentes para cubrir más tipos de ataques, incorporar señales dinámicas desde sensores en tiempo real y fusionar resultados con herramientas de análisis estático y dinámico. También se planea integrar capacidades de inteligencia de negocio y power bi para generar dashboards ejecutivos que prioricen mitigaciones y cuantifiquen riesgo. Como empresa especializada en inteligencia artificial ofrecemos asesoría para la adopción de agentes IA y su integración en pipelines empresariales, conoce más sobre nuestros servicios de inteligencia artificial para empresas.
Conclusión El modelo multiagente basado en LLM presentado por Q2BSTUDIO muestra que es factible y rentable automatizar la detección de vulnerabilidades one-day con una alta precisión y tiempos de respuesta reducidos. Integrado en procesos de desarrollo y operaciones, este enfoque ayuda a mitigar ventanas de exposición críticas y a proteger aplicaciones y datos sensibles. Si tu organización necesita consultoría en desarrollo de aplicaciones, pruebas de seguridad continuas o soluciones avanzadas de IA y servicios cloud aws y azure, Q2BSTUDIO ofrece experiencia en software a medida, aplicaciones a medida, agentes IA y servicios de inteligencia de negocio para mejorar tu resiliencia y gobernanza tecnológica.
Palabras clave aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA, power bi