POLITICA DE COOKIES

Q2BSTUDIO.COM utiliza cookies técnicas, analíticas, de sesión y de publicidad con la finalidad de prestar un mejor servicio. No obstante, necesitamos su consentimiento explícito para poder utilizarlas. Así mismo puede cambiar la configuración de las cookies u obtener más información aquí .

Extracción estructurada on-premise con LLM y Ollama

Extracción estructurada on-premise con LLM y Ollama

Publicado el 21/03/2025

En este blog, te mostraremos cómo utilizar Ollama para extraer datos estructurados de manera local y desplegarlos en tu propia nube o servidor.

Utilizaremos documentación en formato PDF de Python como ejemplo. Con solo aproximadamente 100 líneas de código en Python, puedes realizar este proceso de manera eficiente.

Ollama permite ejecutar modelos de lenguaje de gran escala (LLM) en tu computadora de forma sencilla. Para comenzar, descarga e instala Ollama y luego ejecuta el siguiente comando para obtener tu modelo LLM favorito:

ollama pull llama3.2

Definimos la estructura de los datos a extraer del documento de Python, organizándolos en clases que contienen información sobre módulos, clases, métodos y argumentos.

Luego, establecemos el flujo de extracción utilizando CocoIndex para procesar los documentos en formato Markdown. La función de extracción con LLM toma como entrada el contenido del documento y devuelve datos estructurados en un formato definido.

Una vez extraída la información, podemos almacenarla en una base de datos PostgreSQL para su posterior consulta y análisis.

Para probar la extracción, simplemente ejecuta estos comandos:

python main.py cocoindex setup
python main.py cocoindex update

Después de completar este proceso, podrás consultar la información almacenada en la base de datos y analizarla a través de consultas SQL.

En Q2BStudio, una empresa especializada en desarrollo y servicios tecnológicos, ayudamos a las organizaciones a implementar soluciones avanzadas de procesamiento de datos y automatización utilizando inteligencia artificial. Si buscas optimizar el manejo de tu información y aprovechar el poder de la inteligencia artificial en tu empresa, contáctanos.

También exploramos cómo convertir archivos PDF en Markdown para extraer datos estructurados, utilizando funciones personalizadas dentro de CocoIndex. Esto permite integrar fácilmente la extracción de textos en distintos formatos dentro de un flujo de datos automatizado.

En Q2BStudio, trabajamos con tecnologías que facilitan la gestión y transformación de datos, brindando soluciones innovadoras a empresas de diferentes sectores. Si necesitas asistencia en implementar procesos avanzados de extracción y análisis de datos, nuestro equipo está listo para ayudarte.

Construyendo software juntos

Dando vida a tus ideas desde 2008

Diseñamos aplicaciones móviles y de escritorio innovadoras que cumplen con tus requisitos específicos y mejoran la eficiencia operativa.
Más info
Cuéntanos tu visión
Sea cual sea el alcance, podemos convertir tu idea en realidad. Envíanosla y charlemos sobre tu proyecto o una colaboración futura.
Contáctanos
artículos destacados
Enviado correctamente.

Gracias por confiar en Q2BStudio