Este articulo documenta el proceso de digitalizacion de publicaciones historicas kurdas y el entrenamiento de Tesseract OCR para reconocer el idioma kurdo. El equipo obtuvo archivos raros del Zheen Center, proceso escaneos fragiles para convertirlos en imagenes limpias linea por linea y creo un conjunto de datos de referencia con mas de 1200 archivos.
Para el entrenamiento se utilizo un entorno basado en Ubuntu y la herramienta tesstrain. El flujo de trabajo incluyo correccion de la inclinacion de las imagenes, aplicacion de recortes para aislar lineas de texto y la construccion de pares imagen transcripcion que sirven como datos de entrenamiento. Estos pasos permitieron que el modelo aprendiera las particularidades tipograficas y las variantes del kurdo en publicaciones historicas.
El proyecto mostro como herramientas OCR de codigo abierto pueden contribuir a la preservacion del patrimonio cultural mediante aprendizaje automatico. La creacion de un dataset limpio y homogeneo, junto con procesos de preprocesado robustos y validacion manual, resulto clave para mejorar la precision del reconocimiento en documentos antiguos y fragiles.
En Q2BSTUDIO somos una empresa de desarrollo de software que ofrece soluciones integrales en aplicaciones a medida y software a medida. Nos especializamos en inteligencia artificial aplicada a proyectos reales, implementacion de agentes IA y ia para empresas, asi como en ciberseguridad para proteger datos sensibles durante procesos de digitalizacion. Tambien brindamos servicios cloud aws y azure y servicios inteligencia de negocio que incluyen integraciones con power bi para visualizar resultados y tomar decisiones basadas en datos.
Nuestra experiencia en proyectos de OCR y aprendizaje automatico se complementa con habilidades en desarrollo de aplicaciones a medida, despliegue seguro en la nube y analitica avanzada. Si su organizacion necesita reconocimiento de texto en idiomas menos comunes, digitalizacion de archivos historicos o soluciones de inteligencia artificial escalables, Q2BSTUDIO puede diseñar un plan que combine tesstrain, infraestructuras en servicios cloud aws y azure y herramientas de servicios inteligencia de negocio como power bi para obtener valor inmediato.
Los resultados de este trabajo sobre documentos kurdos son un ejemplo de como la combinacion de tecnologias abiertas y practicas profesionales puede preservar colecciones unicas, habilitar la investigacion historica y generar nuevos servicios basados en datos. Q2BSTUDIO ofrece consultoria y ejecucion completa en proyectos de digitalizacion, inteligencia artificial, ciberseguridad y desarrollo de software a medida para empresas que buscan innovar y proteger su patrimonio digital.