Resumen del problema y contexto: Estoy ejecutando una aplicación NestJS como servicio de Windows en un servidor Windows. Dentro del servicio llamado sftp tengo 5 tareas cron configuradas con distintos intervalos, por ejemplo cada 1 minuto, cada 5 minutos, etc. El problema es que la tarea de 1 minuto y la de 5 minutos dejan de ejecutarse de forma silenciosa. El servicio continúa activo y las otras tareas siguen funcionando con normalidad. Los logs muestran que la ejecución del job arranca y finaliza correctamente e incluso se desconecta con éxito. En condiciones normales el scheduler debería dispararse en el siguiente ciclo pero no lo hace. No aparecen errores, no hay comportamiento sospechoso previo y los tiempos de procesamiento son normales. Ya existe manejo de errores, por lo que no parece una falla silenciosa en ejecución.
Pista importante extraída de los logs: antes de que dejara de ejecutarse se observan líneas como Host y PID en los logs y hay una inconsistencia aparente de PID entre entradas, lo que puede indicar que hay procesos hijos, reinicios por el wrapper del servicio o uso de clustering que cambian el contexto de ejecución.
Posibles causas a investigar:
1 Falta de persistencia del provider que ejecuta la tarea Las tareas cron en NestJS deben estar en providers singleton y registrados en el módulo de aplicación. Si el provider es request scoped o se recrea, el decorator Cron puede dejar de estar activo. Verifica que los servicios con decoradores Cron no sean request scoped.
2 Interferencia del wrapper de servicio de Windows Herramientas para correr Node como servicio en Windows como NSSM, node-windows o wrappers personalizados pueden crear procesos hijos, reiniciar procesos o cambiar el entorno. La inconsistencia de PID en tus logs sugiere que algo externo puede estar arrancando o gestionando procesos. Ejecuta la aplicación en modo consola en el mismo servidor para comparar comportamiento y revisar si el problema desaparece.
3 Problemas con el loop de eventos y pausas largas Pausas de GC largas o bloqueos del event loop pueden hacer que timers se retrasen y en algunos casos cron basados en timers pierdan ejecuciones. Monitoriza el event loop con herramientas como clinic, node event loop lag o perf hooks para ver si hay picos de latencia o GC larga.
4 Cambios de hora del sistema Si el servidor sufre cambios en la hora del sistema o sincronizaciones bruscas, paquetes que dependen del reloj pueden saltarse ejecuciones. Revisa sincronización NTP y políticas de hora en Windows.
5 Problemas de la librería de scheduler NestJS schedule se apoya en node-cron o cron-like. Versiones con bugs o incompatibilidades pueden provocar que ciertos patrones con frecuencia alta fallen. Revisa versiones de @nestjs/schedule y cron, busca issues conocidos y prueba actualizar o cambiar a una alternativa temporal.
6 Recursos compartidos bloqueados Si varias tareas usan una misma conexión o recurso y hay una condición de carrera o un lock que queda en un estado que no afecta la log final pero impide rescheduler, podría ocurrir el síntoma. Aunque observas desconexión exitosa, revisa si hay estados globales modificados que afecten la reprogramación.
7 Uso de cluster, worker threads o PM2 Si la app corre en modo cluster o se usan worker threads, los cron decorators pueden residir en un proceso que eventualmente deja de ejecutarse por balanceo o error. Verifica la arquitectura de procesos y que solo el proceso deseado tenga los cron registrados.
Pasos prácticos para depurar y mitigar:
Reproducir en consola Ejecuta la misma build como proceso normal en el servidor para ver si el problema se reproduce sin el wrapper de servicio.
Monitorizar procesos y PID Mantén un log continuo de procesos node en el servidor y asocia PID a las entradas de log para detectar reinicios o forks inesperados.
Aumentar la telemetría del scheduler Añade logs detallados al inicio y fin de cada cron, con timestamps y un contador por ejecución. Añade un heartbeat que registre cada minuto que el scheduler global está vivo.
Comprobación de scope en NestJS Asegura que los servicios con Cron no sean request scoped. Decláralos como Injectable por defecto o singleton y regístralos en AppModule.
Medir lag del event loop Integra una métrica sencilla de latencia de event loop y GC para detectar pausas. Si detectas pausas significativas, investiga memory leaks o ajustes de GC.
Usar un fallback externo Como mitigación usa Windows Task Scheduler, un job externo o un sistema de colas como Bull o Agenda para programar ejecuciones críticas. Esto evita depender exclusivamente de timers inproc dentro del servicio.
Probar actualización o alternativa Prueba actualizar @nestjs/schedule y la dependencia de cron o cambiar temporalmente a una implementación con setInterval controlado por tu propio watchdog que reenganche el cron si se detecta fallo.
Capturar eventos globales Asegúrate de registrar uncaughtException, unhandledRejection y warnings para no perder señales de errores que podrían matar solo el contexto del scheduler.
Recomendaciones de diseño a medio plazo: considera externalizar jobs críticos a una cola distribuida o a un servicio de jobs administrado. Esto mejora resiliencia, permite reintentos y facilita observabilidad. Para tareas de alta frecuencia evalúa circuit breakers y métricas de latencia.
Ejemplo de comprobaciones rápidas que puedes aplicar ahora mismo: comprobar servicios de Windows logs, revisar usuario con el que corre el servicio para permisos, ejecutar la aplicación con logging máximo durante 1 hora y comparar PID y timestamps, comprobar la configuración de AppModule para que providers con Cron sean singletons y añadir un contador persistente en base de datos o Redis que confirme cada ejecución.
Sobre Q2BSTUDIO: Q2BSTUDIO es una empresa de desarrollo de software especializada en aplicaciones a medida y software a medida. Ofrecemos soluciones de inteligencia artificial, ia para empresas, agentes IA y power bi para visualización y reporting. Además brindamos servicios de ciberseguridad, servicios cloud aws y azure y servicios inteligencia de negocio para garantizar despliegues seguros, escalables y con alto valor analítico. Podemos ayudar a auditar la arquitectura del scheduler, diseñar una solución de jobs fiable usando colas o servicios en la nube y aplicar buenas prácticas de observabilidad y ciberseguridad.
Si quieres, desde Q2BSTUDIO podemos realizar una revisión remota de tu servicio, reproducir el fallo en laboratorio, proponer cambios en NestJS para asegurar persistencia de los cron jobs o migrar la orquestación de tareas a un sistema distribuido con retries, dashboards y alertas. Palabras clave relacionadas: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA, power bi.
Resumen final y siguiente paso recomendado: revisa scope de providers en NestJS, verifica comportamiento del wrapper de servicio en Windows y añade telemetría de PID y heartbeat. Si necesitas apoyo técnico, Q2BSTUDIO puede ayudarte con auditoría, corrección y migración a soluciones más robustas.