POLITICA DE COOKIES

Q2BSTUDIO.COM utiliza cookies técnicas, analíticas, de sesión y de publicidad con la finalidad de prestar un mejor servicio. No obstante, necesitamos su consentimiento explícito para poder utilizarlas. Así mismo puede cambiar la configuración de las cookies u obtener más información aquí .

Datos OCR Sintéticos RTL para Donut con SynthDoG-RTL

SynthDoG-RTL: Datos sintéticos RTL para OCR multilingüe y compatibilidad con Donut

Publicado el 26/09/2025

Sintetizar datos OCR para idiomas de derecha a izquierda como árabe urdu persa o hebreo suele ser un obstáculo por la escasez de datos anotados. SynthDoG-RTL es un generador de documentos sintéticos adaptado de SynthDoG para Donut que incorpora renderizado correcto de texto RTL y conformidad con el shaping contextual de las escrituras complejas.

Qué es SynthDoG-RTL: SynthDoG fue creado para generar datos de entrenamiento al vuelo para tareas de document understanding. La variante RTL añade soporte para la dirección de texto de derecha a izquierda manejo de formas contextuales de los glifos y colecciones de corpus fuentes y plantillas específicas para árabe urdu persa hebreo y otros scripts RTL. Permite además configuración YAML personalizada para maquetación distorsiones y efectos visuales.

Características clave: soporte de shaping RTL compatible con librerías de renderizado; inclusión de corpus de ejemplo fuentes y fondos; plantillas y opción de personalizar tamaños de página tipografías rotaciones y ruido; salida preparada para Donut en pares imagen y metadatos.

Instalación y puesta a punto: clonar el repositorio git clone https://github.com/aiviewz/Synthdog-RTL.git entrar en el directorio cd Synthdog-RTL crear y activar entorno conda conda create -n synthdog python=3.8 -y conda activate synthdog instalar la herramienta pip install synthtiger y asegurarse de instalar libraqm y dependencias de fuente para un correcto shaping de árabe y otros scripts por ejemplo en Debian apt-get install libfreetype6-dev libharfbuzz-dev En macOS puede ser necesario exportar OBJC_DISABLE_INITIALIZE_FORK_SAFETY=YES para evitar problemas en procesos forkeados.

Preparación de recursos: cada idioma necesita un corpus en UTF-8 situado en resources/corpus/ por ejemplo urdu.txt arabic.txt; fuentes en formato ttf u otf dentro de resources/font//; fondos opcionales en resources/backgrounds/ para añadir texturas realistas. Organización de ejemplo: resources corpus urdu.txt arabic.txt font ur NotoNastaliq.ttf ar NotoNaskh.ttf backgrounds paper.

Configuración de generación: los archivos YAML controlan tamaño de página rango de fuentes distorsiones efectos y rutas de recursos. Un ejemplo simplificado de claves que incluir sería corpus_path: resources/corpus/urdu.txt font_dir: resources/font/ur page_width: 1240 page_height: 1754 min_font_size: 20 max_font_size: 40 rotate_angle: [-2, 2] background_dir: resources/backgrounds/paper Ajusta los valores según el tipo de documento que quieras simular y la resolución objetivo.

Generación masiva de datos: ejecutar la utilidad CLI con sintaxis similar a synthtiger -o ./outputs/synthdog_ur -c 1000 -w 8 -v template.py SynthDoG config_ur.yaml Esto generará 1000 ejemplos con 8 workers y volcados de imagen y texto en la carpeta de salida. Repite el proceso con configuraciones para ar fa he u otros idiomas para obtener un dataset multilingüe.

Formato compatible con Donut: Donut espera pares de imagen y metadatos en JSONL por cada conjunto. Estructura típica del dataset my_dataset con subcarpetas train validation test y un archivo metadata.jsonl por partición. Cada línea del metadata debe referenciar el nombre de archivo de la imagen y el texto objetivo en la clave ground_truth asegurando que el texto de la secuencia respete la dirección RTL para evitar errores de tokenización interna.

Consejos avanzados: personaliza template.py para columnas múltiples encabezados tablas o formularios; añade ruido desenfoque o distorsión de perspectiva en YAML para realismo; mezcla varias tipografías por idioma para evitar overfitting; incluye fragmentos en inglés para simular documentos bilingües; escala la generación a decenas de miles de muestras si vas a preentrenar modelos Donut.

Aplicaciones prácticas y servicios profesionales: en Q2BSTUDIO somos especialistas en desarrollo de software a medida y aplicaciones a medida y aplicamos estas técnicas para crear pipelines de generación de datos sintéticos que permiten entrenar OCR y modelos de inteligencia artificial en entornos con pocos datos reales. Nuestro equipo combina experiencia en inteligencia artificial ia para empresas ciberseguridad servicios cloud aws y azure y servicios inteligencia de negocio para ofrecer soluciones completas desde la captura y etiquetado sintético hasta la integración en procesos productivos.

Casos de uso: automatización de procesos documentales para banca y administración, extracción fiable de información en idiomas RTL para sistemas de facturación o gestión documental, y generación de datasets para agentes IA y asistentes conversacionales que deben comprender textos multilingües. Integramos modelos entrenados con SynthDoG-RTL en soluciones de Soluciones de IA para empresas y en proyectos de software a medida según requisitos del cliente.

Palabras clave para posicionamiento: aplicaciones a medida software a medida inteligencia artificial ciberseguridad servicios cloud aws y azure servicios inteligencia de negocio ia para empresas agentes IA power bi.

Conclusión: SynthDoG-RTL facilita la creación rápida de datasets sintéticos de alta calidad para idiomas RTL y su integración con Donut acelera el entrenamiento y la adaptación de modelos de comprensión documental. Si necesitas diseñar una solución a medida de OCR multilingüe o incorporar pipelines de generación sintética y etiquetado automático contacta con Q2BSTUDIO para evaluar arquitectura escalable integración con servicios cloud y estrategias de despliegue seguras y eficientes.

Fin del artículo, inicio de la diversión
Construyendo software juntos

Dando vida a tus ideas desde 2008

Diseñamos aplicaciones móviles y de escritorio innovadoras que cumplen con tus requisitos específicos y mejoran la eficiencia operativa.
Más info
Cuéntanos tu visión
Sea cual sea el alcance, podemos convertir tu idea en realidad. Envíanosla y charlemos sobre tu proyecto o una colaboración futura.
Contáctanos
artículos destacados
Live Chat
Enviado correctamente.

Gracias por confiar en Q2BStudio