En el evento AWS Hong Kong Community Day 2025 se presentó una visión práctica y técnica sobre pruebas automatizadas impulsadas por agentes MCP y por inteligencia artificial, una aproximación que transforma la forma en que diseñamos, ejecutamos y validamos pruebas en entornos modernos de software.
Base y planificación: datos y herramientas clave. Las pruebas requieren datos de calidad y acceso a documentación vigente. Elementos frecuentemente subestimados pero críticos son los datos de prueba, un sistema de gestión de tareas como Jira con webhooks que envíen actualizaciones a S3 de AWS, documentación Swagger para especificaciones de API y la disponibilidad de casos de prueba históricos para verificar y volver a ejecutar escenarios anteriores.
Conexión de fuentes de datos. Las técnicas tradicionales tienen capacidad limitada para descubrir relaciones complejas entre requisitos, APIs y registros de pruebas. La introducción de modelos de lenguaje a gran escala LLMs ayuda a cruzar información, pero la verdadera potencia viene al representar relaciones explícitas mediante grafos de conocimiento. Un grafo puede revelar conexiones ocultas entre actores, empresas y artefactos técnicos que una búsqueda de texto simple no encontraría.
Grafos de conocimiento para pruebas automatizadas. Los grafos capturan entidades y relaciones entre requisitos, entradas de API y casos de prueba históricos, facilitando la generación autónoma y contextualizada de tareas y escenarios de prueba. Soluciones como Amazon Neptune Analytics combinan capacidades de bases de grafos con modelos foundation y AWS Bedrock, permitiendo insertar y recuperar información sin sintaxis compleja y ofreciendo visualización clara de las relaciones.
Técnica Graph Retrieval Augmented RA. En lugar de recuperar documentos por texto literal, Graph RA utiliza el grafo de conocimiento como referencia para que la IA obtenga documentos relevantes y genere respuestas o casos de prueba contextualizados. Esto mejora la precisión y la coherencia de los tests que la IA propone.
Pipeline de pruebas impulsado por IA. Sobre la base del grafo se puede construir un flujo de trabajo que utilice Behavior Driven Development BDD con escenario Gherkin, donde Given When Then describen estado inicial, acción y resultado esperado. Por ejemplo, un caso para comprobar títulos de la página principal puede incluir prerequisitos, pasos y resultados esperados. Los grafos son esenciales para mapear dependencias y precondiciones entre tickets de requisito, especificaciones de API y casos históricos.
Generación de casos de prueba con agentes IA. Los agentes IA eligen acciones óptimas para alcanzar objetivos de prueba, analizan flujos de negocio y leen requisitos desde el grafo. En una funcionalidad de gestión de suscripciones el agente puede identificar validaciones de método de pago en la interfaz, llamadas a APIs de pago y dependencias registradas como intentos exitosos de creación de suscripción o fallos de pago.
Detección de conflictos y adaptación. Un agente IA puede detectar reglas contradictorias como una norma antigua que exige verificación de correo para funciones premium frente a una regla nueva que permite acceso de prueba por siete días sin verificación. El sistema actualiza automáticamente los casos de prueba relacionados para reflejar la nueva política.
Descubrimiento de detalles de API y generación de datos. A partir de especificaciones e historial el agente extrae endpoints, parámetros obligatorios y opcionales, códigos de error y condiciones de dependencia. Genera datos de prueba que cubren el happy flow, casos frontera y condiciones de error, asegurando cobertura y consistencia.
Refinamiento y verificación humana. Aunque la IA genera escenarios completos, la validación humana sigue siendo esencial para garantizar que se capturen matices de negocio y casos límite. El flujo ideal combina refinamiento automático con revisión por expertos y registro de hallazgos en el sistema de tickets como Jira.
Ejecutores y Playwright. Para la ejecución se recomienda Playwright por su velocidad y compatibilidad con motores de renderizado modernos Chromium WebKit y Firefox, su ejecución paralela, registro detallado, trazas, capturas de pantalla y grabación de vídeo. Playwright facilita pruebas end to end en Windows Linux y macOS y soporta varios lenguajes como JavaScript TypeScript Python y Java.
Agentes para ejecución: el Task Executor. Un agente específico toma parámetros de las tareas generadas, crea scripts Playwright y los almacena en la base de datos para referencia futura. Puede ejecutar pruebas automáticamente y reportar resultados además de incluir grabaciones y logs que permiten una verificación posterior por parte de QA.
Ejemplos prácticos. En un e commerce simple se pueden automatizar tres casos con Playwright y MCP: compra con datos de envío y cierre de orden, inicio de sesión y navegación a página de producto sin más acción y añadir un producto al carrito. Tras la ejecución, las pruebas quedan almacenadas y las grabaciones permiten comprobar que el comportamiento coincide con lo esperado.
Coordinación de agentes. Tres agentes colaboran en un ciclo completo: generador de casos que usa el grafo y LLMs, ejecutor de pruebas que emplea Playwright y un generador de informes que consolida resultados y grabaciones. Esta modularidad aporta escalabilidad y flexibilidad.
Uso de múltiples MCPs. Diferentes MCPs pueden complementar el proceso: un MCP MySQL para generar datos realistas, un MCP Redis para almacenar casos de prueba recientes y un MCP especializado para instrucciones en lenguaje natural. La idea es aprovechar modelos y conectores optimizados para cada tipo de dato o servicio.
Beneficios y mensaje clave Shift Left. Integrar pruebas automatizadas temprano en el ciclo de desarrollo mejora la calidad reduce costes y la deuda técnica. La combinación de grafos de conocimiento LLMs agentes IA y herramientas como Playwright acelera la cobertura de pruebas y permite al equipo humano centrarse en la verificación y el análisis de riesgo.
Sobre Q2BSTUDIO. En Q2BSTUDIO somos una empresa de desarrollo de software y aplicaciones a medida especialistas en inteligencia artificial ciberseguridad y servicios cloud. Ofrecemos soluciones de software a medida y aplicaciones a medida que integran agentes IA para automatizar pruebas y procesos de negocio. Si necesitas potenciar tus capacidades de IA para empresas o desplegar infraestructuras en la nube te invitamos a conocer nuestros servicios de y para despliegues y migraciones en AWS y Azure visita nuestra sección de .
Palabras clave y servicios. Este enfoque es ideal para organizaciones que buscan mejorar calidad mediante aplicaciones a medida software a medida soluciones de inteligencia artificial y servicios inteligencia de negocio. También complementa proyectos de ciberseguridad pentesting y adopción de Power BI para monitorizar métricas de calidad y negocio.
Conclusión. Las pruebas automatizadas con agentes MCP y IA permiten generar casos exhaustivos detectar conflictos descubrir dependencias y ejecutar pruebas repetibles con trazabilidad completa. La clave es combinar grafos de conocimiento LLMs y la verificación humana para obtener confianza en los resultados. En Q2BSTUDIO acompañamos a las empresas en su transformación digital aportando experiencia en desarrollo de aplicaciones integrando agentes IA ciberseguridad y servicios cloud para maximizar calidad y eficiencia.