Guía completa para entrenar un modelo YOLO de segmentación con el conjunto MIDV500 para detección de documentos de identidad, desde la obtención del dataset hasta el entrenamiento, exportación a ONNX y la creación de una aplicación de escritorio para detección y rectificación de documentos
Resumen del flujo de trabajo: descargar MIDV500, convertir anotaciones al formato YOLO de segmentación, verificar visualmente el dataset, entrenar con ultralytics, exportar a ONNX, probar inferencia y construir una GUI para usuarios finales
Qué es MIDV500: es un conjunto de datos de documentos de identidad capturados en múltiples condiciones y de varios países, ideal para tareas de segmentación y detección de tarjetas, pasaportes, carnés y otros documentos. Incluye imágenes, vídeos y anotaciones de polígonos cuadriláteros por muestra
Instalación y descarga del dataset: instala el paquete midv500 con tu gestor de paquetes favorito y descarga el conjunto completo usando su función de descarga especificando la ruta local y el nombre all para traer todos los tipos de documento. Verifica que la estructura final incluya carpetas por documento, con subcarpetas images, ground_truth y videos
Estructura típica esperada tras la descarga descrita de forma simplificada: carpeta raíz midv500 con 50 tipos de documento, cada uno con ground_truth que contiene archivos json y subcarpetas por escena, images con los tif o jpg por escena y videos con clips en mov o mp4
Conversión a formato YOLO de segmentación: las anotaciones de MIDV500 vienen en json con polígonos o cuadriláteros. Debes transformarlas a etiquetas YOLO de segmentación con la siguiente idea general: localizar el json asociado a cada imagen, extraer los cuatro puntos del documento, ordenarlos en sentido TL, TR, BR, BL, normalizarlos dividiendo por ancho y alto de la imagen y escribir una línea por imagen con el id de clase 0 seguido de las coordenadas x y normalizadas de los vértices
Puntos clave del proceso de conversión: búsqueda recursiva de imágenes válidas, lectura robusta de anotaciones desde ground_truth, sidecar json o alternativas como un ground_truth txt cuando aplique, orden de vértices basado en suma y diferencia de coordenadas para asegurar el orden consistente TL TR BR BL, recorte y normalización de coordenadas entre 0 y 1, división aleatoria en train y val, escritura de imágenes en jpg y etiquetas en txt, y creación de un archivo yaml con path absoluto, rutas relativas de train y val, nc 1 y names con document
Validación visual del dataset: antes de entrenar, construye un visor sencillo que abra imágenes de train o val y pinte sobre ellas el polígono normalizado reescalado a píxeles. Con PySide6 puedes crear un panel con botones de navegación, contador, interruptor para mostrar u ocultar anotaciones y un área central que muestre cada imagen con su polilínea y etiqueta. Esto permite detectar desalineaciones, errores de normalización, orden incorrecto de puntos o archivos faltantes
Entrenamiento con ultralytics YOLO de segmentación: utiliza un modelo base de la familia YOLO11 de segmentación y entrena sobre el dataset convertido. Parámetros recomendados de partida: imgsz 640, época entre 20 y 30, batch adaptado a tu GPU, dispositivo 0 para usar GPU, patience de early stopping sobre 5 épocas y amp activado para acelerar con precisión mixta en GPU modernas
Automatización del entrenamiento: crea un script que genere un yaml temporal con la ruta absoluta al dataset para evitar problemas de rutas relativas, verifique la presencia del modelo base y ejecute el entrenamiento de manera reproducible. Al finalizar, ubica el best pt dentro de runs segment y procede a exportarlo
Exportación a ONNX: tras entrenar, exporta el mejor modelo a ONNX con opset 12 para compatibilidad amplia. Puedes además simplificar el grafo y evaluar la exportación en múltiples formatos si planeas desplegar en diferentes entornos, por ejemplo edge, servidores con GPU o CPU y contenedores
Prueba de inferencia con ONNX: valida el modelo con onnxruntime y ultralytics. Realiza una predicción sobre una imagen de prueba, toma la máscara más grande, convierte el polígono a un cuadrilátero usando aproximación de contorno con aproximación poligonal y, si no exacta, aplica minAreaRect como respaldo. Calcula una homografía y ejecuta warpPerspective para obtener el documento rectificado listo para OCR o validaciones posteriores
Creación de una aplicación GUI para negocio: implementa un motor de detección que intente cargar primero el best pt entrenado, en su defecto el best onnx y, como último recurso, el modelo base. La GUI con PySide6 puede incluir carga por arrastrar y soltar, botón para detectar, opción de guardar el documento rectificado, vista lado a lado del original con overlay y del recorte rectificado, y ejecución en hilo separado para mantener la interfaz fluida
Buenas prácticas y consejos: revisa un subconjunto de imágenes por tipo de documento para validar variedad y condiciones de luz, evalúa data augmentation moderado al entrenar si necesitas robustez a desenfoque o inclinación, controla la proporción train val, usa registros de métricas durante el entrenamiento para medir IoU de máscaras y estabilidad, y contempla el despliegue en contenedores con aceleración GPU cuando sea posible
Casos de uso comunes en empresas: preclasificación y recorte de documentos para flujos KYC, automatización de onboarding con extracción OCR posterior, inspección de calidad en backoffice, verificación de formato antes de subir a ERP o CRM y preparación de datasets propios ampliando MIDV500 con capturas específicas del negocio
Q2BSTUDIO puede acompañarte de extremo a extremo: diseño de arquitectura, preparación y etiquetado de datos, entrenamiento y optimización del modelo, despliegue en la nube, integración con tus sistemas, monitorización y MLOps. Somos expertos en aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi
Si buscas un socio para llevar esta solución a producción, aprovecha nuestra experiencia en desarrollo multiplataforma y construcción de soluciones robustas orientadas a negocio. Conoce más sobre cómo diseñamos y entregamos soluciones de aplicaciones a medida y software a medida en el siguiente enlace de información detallada desarrollo de aplicaciones multiplataforma y software a medida
Del mismo modo, si tu objetivo es impulsar productos con ia para empresas, asistentes y agentes IA o modelos a medida integrados con datos corporativos, podemos ayudarte desde la ideación y prototipado hasta el despliegue seguro y escalable. Descubre nuestras capacidades y casos prácticos en el área de inteligencia artificial aquí soluciones de inteligencia artificial
Checklist rápido de implementación
1 Instalar dependencias principales ultralytics, opencv, numpy, pillow, tqdm, yaml y midv500
2 Descargar MIDV500 y verificar estructura por documento
3 Convertir anotaciones a etiquetas YOLO de segmentación con polígonos de cuatro puntos y normalización
4 Dividir en train y val, generar el yaml del dataset, revisar con un visor
5 Entrenar YOLO11 de segmentación ajustando epochs, imgsz, batch y device
6 Exportar a ONNX, probar inferencia y rectificación por homografía
7 Desarrollar la GUI con PySide6, integrarla con el motor de detección y habilitar guardado del documento rectificado
Despliegue y operación: para entornos productivos se recomienda contenerización, pipelines de entrenamiento y evaluación continua, telemetría de inferencia y supervisión del rendimiento. Contempla almacenamiento seguro de modelos, gestión de versiones y auditoría. Para escenarios con datos sensibles agrega cifrado, control de acceso, escaneo de vulnerabilidades y monitoreo en tiempo real
Beneficios para tu organización: reducción drástica del tiempo de procesamiento de documentos, mejora de calidad previa a OCR y extracción de datos, consistencia en el recorte y alineación, escalabilidad en picos de demanda y trazabilidad del proceso. En combinación con servicios inteligencia de negocio y power bi podrás medir con precisión el impacto operativo y financiero
Conclusión: entrenar un modelo de segmentación con YOLO sobre MIDV500 es un camino eficaz para poner en marcha un sistema de detección y normalización de documentos de identidad listo para producción. Comienza con una conversión fiable del dataset, valida visualmente, entrena con parámetros razonables, exporta a ONNX y envuelve todo en una aplicación usable para tus equipos
Acerca de Q2BSTUDIO: somos una empresa de desarrollo de software y aplicaciones a medida especializada en inteligencia artificial, ciberseguridad, automatización de procesos, servicios cloud aws y azure y servicios inteligencia de negocio con power bi. Ayudamos a crear productos digitales seguros, escalables y alineados con los objetivos de cada organización