Experiencia práctica con modelos de visión Llama y Granite ejecutados en local con Ollama
Introducción
¿Alguna vez te has enfrentado a pilas de documentos escaneados, facturas en PDF o placas industriales y has sentido que eran montañas de datos inaccesibles? Durante años el OCR ha sido el ojo digital que transcribe texto desde imágenes. Sin embargo, el OCR tradicional se centra en el qué dice el texto y no en qué significa. No entiende contexto, tablas ni genera resúmenes accionables. La nueva ola de modelos de lenguaje multimodales permite combinar la transcripción del OCR con análisis y generación, desbloqueando una comprensión rica que habilita flujos como RAG para conversar con tus documentos privados con respuestas rápidas y precisas.
Implementación y pruebas
Para validar este enfoque monté un entorno simple con Ollama, ejecutando en local dos modelos pequeños con visión disponibles en su biblioteca: granite3.2-vision y llama3.2-vision. Trabajar en local aporta privacidad, baja latencia y control de costes, evitando depender de una API en la nube. El método de prueba fue directo: recopilé cuatro imágenes aleatorias y falsas de placas de identificación industriales y desarrollé una pequeña app en Python que enviaba cada imagen al modelo y guardaba un JSON con la descripción extraída y el tiempo de respuesta.
Resultados principales
Ambos modelos reconocieron y procesaron texto en francés con buena calidad. En tiempos medios de inferencia por imagen, Granite fue sensiblemente más rápido, mientras que Llama tendió a producir descripciones más extensas y ricas en detalles. En una muestra de cuatro imágenes, los tiempos promediados fueron aproximadamente 14.1 s para Granite frente a 32.5 s para Llama. Por ejemplo, en un caso típico Granite tardó 10.44 a 15.71 s, y Llama entre 25.39 y 42.33 s. La elección del modelo depende por tanto del caso de uso: si prima la velocidad, Granite es preferible; si se busca mayor verbo, matiz y contexto, Llama aporta valor. En cualquier caso, las salidas pueden enriquecer-se y alimentar un pipeline de RAG para consulta semántica sobre inventarios, manuales técnicos, actas de mantenimiento o informes de garantía.
Arquitectura práctica
El flujo recomendado es capturar la imagen, enviar a un VLM local mediante Ollama, estructurar la salida en JSON y, opcionalmente, aplicar una capa de postproceso con reglas o prompts que normalicen unidades, validen números de serie y estructuren campos clave. Esta información se indexa en un motor de búsqueda semántica y se expone mediante un asistente conversacional. Ejecutar en local reduce exposición de datos sensibles y ayuda a cumplir auditorías de ciberseguridad y requisitos regulatorios.
Enriquecimiento con Docling
Herramientas como Docling incorporan pasos de enriquecimiento que añaden valor en la conversión de documentos, como la descripción automática de imágenes con modelos de visión. Estos enriquecimientos pueden extraer más contexto de tablas, bloques de código o fotografías. A cambio, suelen disparar uno o varios modelos adicionales, incrementando el tiempo de proceso. Por eso, muchas de estas opciones vienen deshabilitadas por defecto para que cada equipo decida su equilibrio óptimo entre velocidad y riqueza de datos.
Buenas prácticas operativas
Optimiza prompts para extracción estructurada con campos esperados. Estandariza métricas como kW, bar, VAC. Usa validaciones ligeras para detectar números de serie imposibles. Paraleliza por lotes y cachea resultados si el repositorio de imágenes es estable. Mantén un registro de tiempos por modelo e imagen para dimensionar hardware y ventanas de proceso.
Casos de uso
Inventario de activos con placas y etiquetas, digitalización de albaranes y facturas técnicas, extracción de especificaciones de manuales de equipos, soporte a campo con lectura de placas y recomendaciones en movilidad, control de calidad documental previo a auditorías de ciberseguridad, y aceleración de procesos de ingeniería mediante asistentes que entienden contexto técnico a partir de imágenes y PDFs.
Enlaces útiles
Ollama Granite 3.2 Vision en a href=https://ollama.com/library/granite3.2-vision>biblioteca de modelos y su variante en a href=https://huggingface.co/ibm-granite/granite-vision-3.2-2b>Hugging Face. Llama 3.2 Vision en a href=https://ollama.com/library/llama3.2-vision>Ollama y la colección oficial en a href=https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf>Hugging Face. Enriquecimientos de Docling en a href=https://docling-project.github.io/docling/usage/enrichments/>documentación oficial.
Q2BSTUDIO y cómo te ayudamos
En Q2BSTUDIO somos una empresa de desarrollo de software especializada en aplicaciones a medida y software a medida, con un enfoque transversal en inteligencia artificial, agentes IA, servicios inteligencia de negocio y power bi, ciberseguridad y servicios cloud aws y azure. Diseñamos pipelines de OCR con LLM adaptados a cada sector, desde mantenimiento industrial hasta logística y calidad, integrando extracción estructurada, RAG y asistentes conversacionales en tus procesos. Si buscas un partner para llevar la ia para empresas del piloto a producción, descubre cómo impulsamos tu estrategia con a href=https://www.q2bstudio.com/landing/Inteligencia-artificial>inteligencia artificial aplicada y la automatización de extremo a extremo con a href=https://www.q2bstudio.com/landing/automatizacion-procesos-software>automatización de procesos.
Conclusión
Combinar OCR con modelos de visión ejecutados en local es un enfoque potente y pragmático para convertir datos crudos en conocimiento consultable. Granite aporta velocidad y Llama mayor detalle descriptivo, y ambos ofrecen resultados multilingües de alta calidad. Sumando enriquecimientos selectivos y un índice semántico, se obtiene una base de conocimiento conversacional que acelera operaciones, reduce errores y protege la información crítica. Este enfoque se integra de forma natural con aplicaciones a medida, servicios inteligencia de negocio y controles de ciberseguridad, creando una ventaja competitiva sostenible.