Despliegue de Docling en ECS con ALB

Publicado el 09/09/2025

Bienvenido a la parte final de la serie sobre despliegue de Docling en infraestructura AWS ECS. En esta guía traducida y reescrita te explicamos paso a paso cómo desplegar la aplicación Docling, un servicio de procesamiento de documentos acelerado por GPU, sobre un clúster ECS y exponerla al exterior mediante un Application Load Balancer. Además incluimos una analogía intuitiva para comprender los componentes del balanceador de carga y consejos prácticos de verificación y resolución de problemas.

Analogía del restaurante para entender el Application Load Balancer

Balanceador de carga Pensemos en el balanceador como el dueño del restaurante que coordina que todos los clientes sean atendidos eficientemente. Listener Es el anfitrión con instrucciones concretas para dirigir solicitudes: si alguien pide helado, llévalo a la zona de helados; si pide bebidas, al bar. Target group Son los equipos de camareros para cada sección: camareros del rincón de helados, bartenders del bar, camareros de la zona familiar. Registrar targets Es cuando cada camarero se registra en su equipo para indicar que está disponible. Con esta analogía se entiende cómo el ALB distribuye el tráfico hacia los servicios backend según reglas configuradas.

Qué vamos a construir En esta parte final vamos a: crear y registrar la Task Definition para Docling, desplegar el Service que gestione los contenedores, configurar un Application Load Balancer para acceso público, establecer reglas de red y seguridad y verificar el servicio GPU habilitado.

Requisitos previos Debes haber completado las partes anteriores: VPC, subnets y roles IAM, y la creación del clúster ECS con Launch Templates y Auto Scaling Groups. Deberías disponer de variables o valores como VPC_ID, PUBLIC_SUBNET, PRIVATE_SUBNET, ECS_SG_ID, nombre del clúster docling-ecs-cluster y el Auto Scaling Group utilizado.

Paso 1: Task Definition La Task Definition es el plano que describe cómo ejecutar el contenedor Docling. Crea un archivo docling-task-definition.json con los parámetros principales: family docling-nvidia, networkMode host para acceso directo a la red del EC2, requiresCompatibilities EC2, executionRoleArn y taskRoleArn apuntando a los roles creados en la parte 1, la imagen ghcr.io/docling-project/docling-serve-cu126:main, mapeo de puerto 5001 tanto en containerPort como hostPort, variable de entorno DOCLING_SERVE_ENABLE_UI igual a true, allocation de GPU con resourceRequirements value 1 type GPU, logging hacia CloudWatch con log group /ecs/docling-serve-nvidia y parámetros de linuxCapabilities agregando SYS_ADMIN si es necesario. Recursos recomendados: cpu 2048 y memory 8192 para cargas GPU intensivas. Registra la Task Definition con aws ecs register-task-definition y etiqueta el recurso para facilitar la gestión.

Paso 2: Crear el Service ECS Crea el servicio docling-serve en el clúster docling-ecs-cluster apuntando a la task definition registrada. Inicialmente usa desiredCount 0 para evitar que las tareas arranquen antes de tener instancias EC2 disponibles. Crea el servicio con aws ecs create-service y aplica etiquetas de gestión.

Paso 3: Prueba básica del despliegue Escala el Auto Scaling Group para lanzar una instancia EC2 si no hay instancias activas. Actualiza el servicio ECS a desiredCount 1 para ejecutar una tarea. Verifica que el contenedor esté en ejecución conectándote por SSH a la instancia EC2, comprobando con sudo docker ps y revisando los logs con sudo docker logs container_id. Debes observar que la aplicación arranca y utiliza la GPU si la instancia soporta aceleración.

Paso 4: Configurar Application Load Balancer Crea un Security Group para el ALB y permite tráfico entrante desde internet al puerto 5001 con origen 0.0.0.0/0. Crea el ALB en modo internet-facing y colócalo en subnets privadas y públicas para alta disponibilidad. Añade tags para identificación y gestión. El ALB será la puerta de entrada pública hacia Docling.

Paso 5: Target Group Crea un Target Group para Docling usando protocolo HTTP, puerto 5001, target type ip y health check path en /docs para que el ALB monitorice la salud de las tareas. Añade tags y ten en cuenta que con target type ip ECS registrará automáticamente las IPs de las tareas si el servicio se configura para integrarse con ALB.

Paso 6: Integrar el Service con el Target Group Actualiza el servicio ECS para usar el Target Group creado indicando el containerName docling-serve y el containerPort 5001. Con esta configuración ECS registrará y anulará el registro de las tareas en el target group conforme se inician o detienen, simplificando la gestión.

Paso 7: Listener Crea un Listener en el ALB en el puerto 5001 con acción por defecto forward hacia el Target Group de Docling. Añade tags al listener para su identificación.

Paso 8: Reglas de seguridad Actualiza el Security Group de las instancias ECS para permitir tráfico desde el Security Group del ALB hacia el puerto 5001. Esto asegura que solo el ALB pueda comunicarse con las instancias en ese puerto si así lo deseas.

Pruebas finales y verificación Comprueba el estado de salud del target con aws elbv2 describe-target-health y espera que el estado sea healthy. Consulta el DNS del ALB y accede a la interfaz web en la ruta https://ALB_DNS:5001/ui o prueba la API con curl https://ALB_DNS:5001/docs. Monitoriza logs en CloudWatch bajo el grupo /ecs/docling-serve-nvidia o directamente en la instancia.

Solución de problemas comunes Si el servicio no arranca, verifica que las instancias EC2 estén registradas en el clúster ECS, que las task roles y execution roles existan y tengan permisos correctos y revisa los logs en CloudWatch para errores de arranque. Si no puedes acceder a la aplicación revisa las reglas de Security Group, el estado de salud del Target Group y que el ALB esté en las subnets correctas. Si la GPU no está disponible confirma que el tipo de instancia soporta GPU, que los drivers NVIDIA están instalados y que la AMI ECS usada incluye soporte GPU.

Arquitectura y usos El resultado es una arquitectura escalable y orientada a cargas de trabajo GPU: Auto Scaling Groups con instancias GPU, orquestación con ECS gestionando contenedores con requisitos de GPU, alta disponibilidad distribuyendo recursos en múltiples subnets, acceso público mediante ALB y monitorización con CloudWatch. Esta arquitectura es ideal para cargas AI ML, procesamiento de documentos, transcodificación de video y cómputo científico.

Sobre Q2BSTUDIO Q2BSTUDIO es una empresa de desarrollo de software con experiencia en aplicaciones a medida y software a medida, especialistas en inteligencia artificial, ciberseguridad y servicios cloud. Ofrecemos soluciones integrales que incluyen desde arquitecturas cloud en AWS y Azure hasta servicios de inteligencia de negocio y automatización de procesos. Si buscas desplegar soluciones cloud o migrar cargas GPU te invitamos a conocer nuestros servicios cloud y plataformas de Inteligencia Artificial consultando nuestra página de servicios cloud Servicios cloud AWS y Azure y nuestra oferta en IA para empresas en Inteligencia Artificial. Nuestros servicios incluyen también ciberseguridad y pentesting, integración con Power BI y agentes IA para automatizar y potenciar procesos de negocio.

Palabras clave y posicionamiento Este artículo integra conceptos y prácticas relevantes para búsquedas relacionadas con aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi.

Conclusión Felicitaciones, has desplegado Docling en AWS ECS con soporte GPU y acceso mediante un ALB. La solución es escalable, gestionable y lista para integrarse con flujos de trabajo empresariales. Si necesitas ayuda profesional para implementar, optimizar o securizar este tipo de arquitecturas, Q2BSTUDIO puede acompañarte desde el diseño hasta la operación y la integración con soluciones de inteligencia de negocio y automatización.

POLITICA DE COOKIES

Despliegue de Docling en ECS con ALB

## Despliegue de Docling en AWS ECS con GPU y ALB: guía paso a paso (parte final)

Dando vida a tus ideas desde 2008