POLITICA DE COOKIES

Q2BSTUDIO.COM utiliza cookies técnicas, analíticas, de sesión y de publicidad con la finalidad de prestar un mejor servicio. No obstante, necesitamos su consentimiento explícito para poder utilizarlas. Así mismo puede cambiar la configuración de las cookies u obtener más información aquí .

Futuro del Escaneo de Documentos: OCR con LLM

Experiencia práctica: modelos de visión Llama y Granite ejecutados localmente con Ollama

Publicado el 08/09/2025

Experiencia práctica con modelos de visión Llama y Granite ejecutados en local con Ollama

Introducción

¿Alguna vez te has enfrentado a pilas de documentos escaneados, facturas en PDF o placas industriales y has sentido que eran montañas de datos inaccesibles? Durante años el OCR ha sido el ojo digital que transcribe texto desde imágenes. Sin embargo, el OCR tradicional se centra en el qué dice el texto y no en qué significa. No entiende contexto, tablas ni genera resúmenes accionables. La nueva ola de modelos de lenguaje multimodales permite combinar la transcripción del OCR con análisis y generación, desbloqueando una comprensión rica que habilita flujos como RAG para conversar con tus documentos privados con respuestas rápidas y precisas.

Implementación y pruebas

Para validar este enfoque monté un entorno simple con Ollama, ejecutando en local dos modelos pequeños con visión disponibles en su biblioteca: granite3.2-vision y llama3.2-vision. Trabajar en local aporta privacidad, baja latencia y control de costes, evitando depender de una API en la nube. El método de prueba fue directo: recopilé cuatro imágenes aleatorias y falsas de placas de identificación industriales y desarrollé una pequeña app en Python que enviaba cada imagen al modelo y guardaba un JSON con la descripción extraída y el tiempo de respuesta.

Resultados principales

Ambos modelos reconocieron y procesaron texto en francés con buena calidad. En tiempos medios de inferencia por imagen, Granite fue sensiblemente más rápido, mientras que Llama tendió a producir descripciones más extensas y ricas en detalles. En una muestra de cuatro imágenes, los tiempos promediados fueron aproximadamente 14.1 s para Granite frente a 32.5 s para Llama. Por ejemplo, en un caso típico Granite tardó 10.44 a 15.71 s, y Llama entre 25.39 y 42.33 s. La elección del modelo depende por tanto del caso de uso: si prima la velocidad, Granite es preferible; si se busca mayor verbo, matiz y contexto, Llama aporta valor. En cualquier caso, las salidas pueden enriquecer-se y alimentar un pipeline de RAG para consulta semántica sobre inventarios, manuales técnicos, actas de mantenimiento o informes de garantía.

Arquitectura práctica

El flujo recomendado es capturar la imagen, enviar a un VLM local mediante Ollama, estructurar la salida en JSON y, opcionalmente, aplicar una capa de postproceso con reglas o prompts que normalicen unidades, validen números de serie y estructuren campos clave. Esta información se indexa en un motor de búsqueda semántica y se expone mediante un asistente conversacional. Ejecutar en local reduce exposición de datos sensibles y ayuda a cumplir auditorías de ciberseguridad y requisitos regulatorios.

Enriquecimiento con Docling

Herramientas como Docling incorporan pasos de enriquecimiento que añaden valor en la conversión de documentos, como la descripción automática de imágenes con modelos de visión. Estos enriquecimientos pueden extraer más contexto de tablas, bloques de código o fotografías. A cambio, suelen disparar uno o varios modelos adicionales, incrementando el tiempo de proceso. Por eso, muchas de estas opciones vienen deshabilitadas por defecto para que cada equipo decida su equilibrio óptimo entre velocidad y riqueza de datos.

Buenas prácticas operativas

Optimiza prompts para extracción estructurada con campos esperados. Estandariza métricas como kW, bar, VAC. Usa validaciones ligeras para detectar números de serie imposibles. Paraleliza por lotes y cachea resultados si el repositorio de imágenes es estable. Mantén un registro de tiempos por modelo e imagen para dimensionar hardware y ventanas de proceso.

Casos de uso

Inventario de activos con placas y etiquetas, digitalización de albaranes y facturas técnicas, extracción de especificaciones de manuales de equipos, soporte a campo con lectura de placas y recomendaciones en movilidad, control de calidad documental previo a auditorías de ciberseguridad, y aceleración de procesos de ingeniería mediante asistentes que entienden contexto técnico a partir de imágenes y PDFs.

Enlaces útiles

Ollama Granite 3.2 Vision en a href=https://ollama.com/library/granite3.2-vision>biblioteca de modelos y su variante en a href=https://huggingface.co/ibm-granite/granite-vision-3.2-2b>Hugging Face. Llama 3.2 Vision en a href=https://ollama.com/library/llama3.2-vision>Ollama y la colección oficial en a href=https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf>Hugging Face. Enriquecimientos de Docling en a href=https://docling-project.github.io/docling/usage/enrichments/>documentación oficial.

Q2BSTUDIO y cómo te ayudamos

En Q2BSTUDIO somos una empresa de desarrollo de software especializada en aplicaciones a medida y software a medida, con un enfoque transversal en inteligencia artificial, agentes IA, servicios inteligencia de negocio y power bi, ciberseguridad y servicios cloud aws y azure. Diseñamos pipelines de OCR con LLM adaptados a cada sector, desde mantenimiento industrial hasta logística y calidad, integrando extracción estructurada, RAG y asistentes conversacionales en tus procesos. Si buscas un partner para llevar la ia para empresas del piloto a producción, descubre cómo impulsamos tu estrategia con a href=https://www.q2bstudio.com/landing/Inteligencia-artificial>inteligencia artificial aplicada y la automatización de extremo a extremo con a href=https://www.q2bstudio.com/landing/automatizacion-procesos-software>automatización de procesos.

Conclusión

Combinar OCR con modelos de visión ejecutados en local es un enfoque potente y pragmático para convertir datos crudos en conocimiento consultable. Granite aporta velocidad y Llama mayor detalle descriptivo, y ambos ofrecen resultados multilingües de alta calidad. Sumando enriquecimientos selectivos y un índice semántico, se obtiene una base de conocimiento conversacional que acelera operaciones, reduce errores y protege la información crítica. Este enfoque se integra de forma natural con aplicaciones a medida, servicios inteligencia de negocio y controles de ciberseguridad, creando una ventaja competitiva sostenible.

Fin del artículo, inicio de la diversión
Construyendo software juntos

Dando vida a tus ideas desde 2008

Diseñamos aplicaciones móviles y de escritorio innovadoras que cumplen con tus requisitos específicos y mejoran la eficiencia operativa.
Más info
Cuéntanos tu visión
Sea cual sea el alcance, podemos convertir tu idea en realidad. Envíanosla y charlemos sobre tu proyecto o una colaboración futura.
Contáctanos
artículos destacados
Live Chat
Enviado correctamente.

Gracias por confiar en Q2BStudio