POLITICA DE COOKIES

Q2BSTUDIO.COM utiliza cookies técnicas, analíticas, de sesión y de publicidad con la finalidad de prestar un mejor servicio. No obstante, necesitamos su consentimiento explícito para poder utilizarlas. Así mismo puede cambiar la configuración de las cookies u obtener más información aquí .

Contacto ¡ Te esperamos !

Blog Software Actualidad

Studio Más sobre Q2B

Proyectos ¿ Que Hemos Hecho ?

Servicios ¿ Que Hacemos ?

Contacto ¡ Te esperamos !

Proyectos ¿ Que Hemos Hecho ?

Servicios ¿ Que Hacemos ?

Blog Software Actualidad

Studio Más sobre Q2B

Volver

Cómo descargar, cuantizar y ejecutar un modelo LLM localmente en Ollama

Descarga, cuantiza y ejecuta un modelo LLM en Ollama

Publicado el 12/11/2025

Poner en marcha un modelo de lenguaje grande LLM en tu propio ordenador ya no es algo reservado a especialistas. En este artículo explico paso a paso cómo descargar, convertir, cuantizar y ejecutar un modelo localmente con Ollama, usando como ejemplo Jurema-7B, y además cómo estos procesos encajan con servicios profesionales como los que ofrece Q2BSTUDIO en desarrollo de aplicaciones a medida y soluciones de inteligencia artificial para empresas.

Introducción rápida y contexto. Ejecutar un LLM localmente permite mantener control de datos, reducir costes por uso en la nube y garantizar latencia baja. Si tu empresa busca soluciones de software a medida o integrar agentes IA en procesos internos, esta guía técnica te servirá de base práctica antes de una implementación a escala con servicios profesionales.

Requisitos previos. Sistema Windows, Linux o macOS. Tener instalados Git, Python 3.10 o superior, CMake y un compilador como MinGW w64 en Windows. Si instalas MinGW via Chocolatey, el instalador suele añadir C:\mingw64\bin al PATH automáticamente. También necesitarás Ollama instalado para la fase final.

1. Descargar el modelo. En el ejemplo se usa Jurema-7B, un LLM orientado al dominio jurídico brasileño derivado de Qwen2.5-7B-Instruct. Clona el repositorio desde Hugging Face con el comando git clone https://huggingface.co/Jurema-br/Jurema-7B Esto creará una carpeta Jurema-7B que contiene archivos como config.json model.safetensors tokenizer.json y otros.

2. Descargar y compilar llama.cpp. llama.cpp es el proyecto que permite ejecutar y cuantizar modelos LLaMA en hardware local. Clona el repositorio con git clone https://github.com/ggerganov/llama.cpp cd llama.cpp Compila usando CMake cmake -S . -B build -G MinGW Makefiles cmake --build build --config Release Tras la compilación encontrarás binarios en build/bin incluyendo quantize.exe que sirve para cuantizar modelos.

3. Convertir el modelo a formato gguf. Ollama trabaja con archivos .gguf, por lo que hay que convertir from Hugging Face al formato adecuado. Ejecuta python convert_hf_to_gguf.py path_para_llm/Jurema-7B --outfile jurema-7b-fp16.gguf Ajusta paths según tu estructura de carpetas.

4. Cuantizar para ahorrar memoria. La cuantización reduce el tamaño y el consumo de GPU/CPU con mínima pérdida de calidad. Un buen punto de partida es Q4_K_M por equilibrio entre precisión y uso de memoria. Ejecuta build/bin/quantize.exe jurema-7b-fp16.gguf jurema-7b-q4.gguf Q4_K_M El archivo jurema-7b-q4.gguf es el modelo cuantizado final listo para Ollama.

5. Añadir el modelo a Ollama. Crea un archivo Modelfile con contenido como FROM path_para_llm/Jurema-7B/jurema-7b-q4.gguf TEMPLATE ### Instruccion: {{ .Prompt }} ### Respuesta: PARAMETER temperature 0.3 PARAMETER top_p 0.8 PARAMETER num_predict 512 PARAMETER stop [ <|im_end|>, , User:, Human:, ### ] Luego crea el modelo en Ollama con ollama create jurema -f Modelfile y ejecútalo con ollama run jurema De este modo tendrás el modelo conversando localmente en tu máquina.

6. Evitar bucles infinitos y controlar generación. Algunos modelos pueden generar texto sin parar. Recomendaciones para mitigarlo: incluir stop tokens en Modelfile usar num_predict para limitar tokens mantener temperature baja entre 0.3 y 0.5 y en llamadas por CLI establecer un límite ollama run jurema --num-predict 300

7. Consejos de rendimiento. Para buen equilibrio entre precisión y memoria usa Q4_K_M o Q5_K_S. Si dispones de GPU potente y mucha RAM prueba Q6 o Q8. Este flujo funciona en Windows pero la lógica es la misma en Linux y macOS cambiando el método de instalación de dependencias.

Aplicaciones prácticas y cómo Q2BSTUDIO puede ayudar. Si buscas llevar este tipo de proyecto a producción, Q2BSTUDIO ofrece servicios integrales en inteligencia artificial y desarrollo de aplicaciones a medida. Podemos ayudar desde la selección y adaptación del modelo hasta la integración con sistemas corporativos y despliegue en entornos cloud como AWS y Azure. Para proyectos que requieran una estrategia de IA completa descubre nuestros servicios de inteligencia artificial aquí Servicios de Inteligencia Artificial en Q2BSTUDIO y si necesitas desarrollar aplicaciones a medida consulta nuestra oferta de software a medida en Desarrollo de aplicaciones y software multiplataforma.

Palabras clave y posicionamiento. En Q2BSTUDIO somos expertos en aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi. Si tu empresa quiere aprovechar modelos LLM locales o soluciones híbridas cloud local, podemos diseñar la arquitectura segura y escalable que mejor se adapte a tus necesidades.

Referencias y recursos útiles. Repositorio llama.cpp en GitHub Ollama Docs y la página del modelo Jurema en Hugging Face son recursos clave para profundizar en los pasos técnicos.

Resumen final. Descargar, convertir y cuantizar un LLM para ejecutarlo localmente con Ollama es totalmente viable para equipos con conocimientos técnicos básicos. Si necesitas apoyo profesional para llevarlo a producción, integración con servicios cloud o reforzar la seguridad de la solución, contacta con Q2BSTUDIO para una consultoría especializada en inteligencia artificial, ciberseguridad y desarrollo de software a medida.

Etiquetas: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA, power bi

Fin del artículo, inicio de la diversión

Usa solo las flechas

Score

Game Over

Play Again

¿cómo podemos ayudarte?

servicios cloud

Inteligencia Artificial

Business Intelligence

APP

Construyendo software juntos