Introducción
En la parte 2 desplegamos nuestro agente con Amazon Bedrock AgentCore Runtime Starter Toolkit y analizamos métricas de invocación de modelos en CloudWatch GenAI Observability como conteo de invocaciones, latencia, throttling, errores, uso de tokens por modelo y distribución de peticiones por tokens de entrada. En esta entrega profundizamos en AgentCore Observability y cómo aprovecharlo para entender, depurar y optimizar el rendimiento de agentes en producción.
AgentCore Observability
AgentCore Observability facilita el trazado, la depuración y la supervisión del desempeño de agentes en entornos reales. Permite visualizar cada paso del flujo del agente, inspeccionar el camino de ejecución, auditar salidas intermedias e identificar cuellos de botella y fallos. Proporciona visibilidad en tiempo real a través de paneles basados en Amazon CloudWatch y telemetría clave como número de sesiones, latencia, duración, uso de tokens y tasas de error. Gracias al etiquetado y filtrado de metadatos es más sencillo investigar incidencias y mantener la calidad a escala. AgentCore emite telemetría en formato compatible con OpenTelemetry, lo que facilita su integración con pilas de observabilidad existentes.
De forma predeterminada, AgentCore exporta métricas fundamentales para agentes, recursos de gateway y recursos de memoria. También es posible instrumentar el código del agente para generar spans y trazas adicionales, métricas personalizadas y logs.
Habilitar CloudWatch Transaction Search para Bedrock AgentCore
Antes de explotar a fondo la observabilidad, conviene habilitar Transaction Search en la consola de CloudWatch GenAI Observability dentro del panel Bedrock AgentCore. Accede a la configuración, activa Transaction Search y ajusta el índice de X-Ray Trace según tus necesidades teniendo en cuenta que un bajo porcentaje indexado ayuda a controlar costes por ejemplo 1 por ciento. Al guardar, la ingesta de spans de OpenTelemetry pasará a estado actualizado y quedará habilitada.
Añadir el SDK de AWS Distro for OpenTelemetry ADOT al código del agente
Para visualizar estos datos en la página de observabilidad de IA generativa de CloudWatch y en Amazon CloudWatch es necesario incorporar el SDK de AWS Distro for OpenTelemetry ADOT. ADOT es una distribución segura y lista para producción del proyecto OpenTelemetry que proporciona APIs, librerías y agentes para recolectar trazas distribuidas y métricas. Con ADOT podemos instrumentar una sola vez y enviar métricas y trazas correlacionadas a múltiples soluciones de monitorización en AWS y de socios. En nuestro caso, enviaremos la telemetría a CloudWatch GenAI Observability.
En la parte 2, tras ejecutar el comando agentcore configure --entrypoint agentcore_runtime_demo.py -er IAM_ARN, el toolkit generó un Dockerfile que instala aws-opentelemetry-distro y ejecuta el servicio con opentelemetry-instrument sobre el módulo agentcore_runtime_demo. Esta instrumentación añade automáticamente el SDK ADOT al agente, recolectando spans y métricas sin cambios complejos en el código de negocio.
Vistas de Bedrock AgentCore para Agentes, Sesiones y Trazas
Tras invocar varias veces el agente, el panel Bedrock AgentCore de CloudWatch GenAI Observability muestra una Vista de Agentes con métricas generales, como número de sesiones y trazas, errores y tasa de throttling. La Vista de Sesiones ofrece un panorama de todas las sesiones del agente. Al entrar a una sesión se listan sus trazas asociadas y, al seleccionar una traza, aparece la cadena completa de spans de la invocación del agente.
En la traza típica se observa la llamada al endpoint de invocaciones del runtime HTTP de AgentCore, la obtención del token de autenticación con Cognito, la invocación al gateway de AgentCore con Open API y la ejecución del bucle de eventos del agente. Si el agente usa un modelo como Amazon Nova Pro, se visualiza también la decisión de ejecutar herramientas via MCP u Open API, por ejemplo un recurso de tipo S3 expuesto con operaciones GET. Cada span muestra su latencia en milisegundos y su payload en los datos del span.
La Vista de Línea de tiempo permite ver cuánto tarda cada span dentro de la cadena de invocación, lo que facilita localizar pasos lentos. La Vista de Trayectoria muestra el flujo extremo a extremo del agente y resalta en color los spans con errores, acelerando el análisis de la causa raíz.
Registro de invocaciones de modelos Model Invocation Logging
En el panel de Model Invocations es posible habilitar el logging de invocaciones de modelos. Al activarlo se eligen los tipos de datos a incluir y el destino de logs, por ejemplo CloudWatch. Se puede especificar un log group existente y crear un rol para autorizar a Bedrock. Una vez habilitado y tras ejecutar el agente, los logs muestran entradas con el input del modelo, las herramientas utilizadas y sus resultados, así como el output del modelo. Esta visibilidad es útil para auditoría, evaluación de calidad y ajuste fino de prompts y herramientas.
Buenas prácticas operativas
Recomendaciones frecuentes incluyen activar Transaction Search con un porcentaje de indexado controlado, anotar spans relevantes con atributos de negocio, capturar métricas personalizadas por operación y correlacionar sesiones con identificadores de cliente. También es útil establecer alertas en CloudWatch sobre latencias elevadas, tasas de error y picos en el consumo de tokens.
Conclusión
En esta entrega profundizamos en AgentCore Observability y en cómo ADOT permite instrumentar agentes para enviar trazas y métricas correlacionadas a CloudWatch GenAI Observability. Revisamos las vistas de Agentes, Sesiones y Trazas, incluida la línea de tiempo y la trayectoria, y habilitamos el registro de invocaciones de modelos para inspeccionar entradas, herramientas y salidas. En próximas partes emplearemos una implementación de agente personalizada para tener control total del interfaz HTTP y del pipeline de herramientas.
Sobre Q2BSTUDIO
En Q2BSTUDIO desarrollamos aplicaciones a medida y software a medida con foco en calidad, escalabilidad y seguridad. Somos especialistas en inteligencia artificial, ia para empresas, agentes IA, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio y power bi, además de automatización de procesos y modernización de plataformas. Si tu organización quiere acelerar casos de uso de IA con agentes observables y gobernables, podemos ayudarte a diseñar e implementar la arquitectura, la instrumentación y el despliegue en la nube.
Impulsa tus iniciativas de IA con nuestros servicios de inteligencia artificial y despliega infraestructuras resilientes y observables con nuestros servicios cloud aws y azure. Nuestro equipo integra prácticas de ciberseguridad, observabilidad y analítica avanzada para que tus agentes y aplicaciones operen con máximo rendimiento y trazabilidad.