POLITICA DE COOKIES

Q2BSTUDIO.COM utiliza cookies técnicas, analíticas, de sesión y de publicidad con la finalidad de prestar un mejor servicio. No obstante, necesitamos su consentimiento explícito para poder utilizarlas. Así mismo puede cambiar la configuración de las cookies u obtener más información aquí .

Contacto ¡ Te esperamos !

Blog Software Actualidad

Studio Más sobre Q2B

Proyectos ¿ Que Hemos Hecho ?

Servicios ¿ Que Hacemos ?

Contacto ¡ Te esperamos !

Proyectos ¿ Que Hemos Hecho ?

Servicios ¿ Que Hacemos ?

Blog Software Actualidad

Studio Más sobre Q2B

Volver

Ejecutando IA local en Linux con GPU: Ollama + Open WebUI + Gemma

Ejecución de IA local en Linux con GPU: Ollama + Open WebUI + Gemma

Publicado el 17/11/2025

Hola, soy Maneshwar y en este artículo explico cómo ejecutar modelos LLM modernos de tamaño pequeño localmente en Linux con GPU, Docker y Ollama, recogiendo los problemas reales que aparecen y cómo solucionarlos para tener un entorno estable y productivo.

Resumen del contexto y hardware: equipo con GPU GTX 1650 de 4GB VRAM y 16GB de RAM. Con este perfil las opciones ideales son modelos compactos pero potentes que funcionen dentro de los 4GB de VRAM.

Elección de modelos recomendados para 4GB VRAM: Phi 3 o Phi 2 por velocidad y razonamiento sorprendente para su tamaño, Gemma 2 2B por calidad de salida aunque algo más pesado, Qwen 1.8B por su capacidad multilingue y rendimiento, y TinyLlama 1.1B para chats muy ligeros. En resumen: Phi para latencia y ligereza, Gemma para mejores respuestas, Qwen para multilingue, TinyLlama para tareas básicas.

Instalación y gestión de modelos con Ollama: Ollama simplifica la gestión. Instalar Ollama con el instalador oficial y luego descargar modelos con ollama pull nombre_modelo. Verificar los modelos con ollama list y arrancar el servidor Ollama antes de conectar cualquier UI.

Soporte GPU en Docker: es imprescindible instalar el toolkit de contenedores de NVIDIA para que Docker pueda acceder a la GPU. Tras instalar nvidia-container-toolkit hay que configurar el runtime de Docker con nvidia-ctk runtime configure --runtime=docker y reiniciar el servicio Docker. Para comprobar dentro de un contenedor: docker run --rm --gpus all nvidia/cuda:12.3.0-base-ubuntu22.04 nvidia-smi y verificar que la GPU aparece dentro del contenedor.

Opciones de Web UI para LLMs locales: Jan AI (cliente de escritorio Electron, buena para uso offline), AnythingLLM (framework RAG y KB con UI) y Open WebUI (UI moderna con soporte GPU y buena integración con Ollama). En este proyecto elegí Open WebUI por su integración con Ollama, construcciones optimizadas para GPU, extensibilidad y gran comunidad.

Ejecutando Open WebUI con soporte CUDA: levantar el contenedor de Open WebUI con variables de entorno que apunten al host de Ollama, exponer puertos y montar volúmenes de datos. Asegurarse de pasar --gpus all para acelerar inferencia en GPU. Tras arrancar, comprobar que la UI lista los modelos y que las inferencias usan GPU.

Solución de problemas frecuente: Open WebUI no puede conectarse a Ollama. Causas y correcciones aplicadas en un caso real: 1) Ollama por defecto solo escuchaba en 127.0.0.1, por lo que fue necesario configurar el servicio systemd para exportar OLLAMA_HOST=0.0.0.0:11434 y reiniciar Ollama para que escuche en todas las interfaces. 2) Open WebUI pudo haber guardado un host incorrecto en su base de datos SQLite, por lo que borrar el volumen y recrear el contenedor limpió esa configuración. 3) El navegador pudo tener en localStorage la URL equivocada, por lo que limpiar localStorage o actualizar la conexión en Settings resolvió el problema. Tras alinear el binding de Ollama, las variables de entorno del contenedor y la configuración del navegador, la comunicación fue estable.

Comprobaciones finales: desde el contenedor de Open WebUI ejecutar curl a la API de Ollama para listar modelos y confirmar la presencia de phi y gemma, verificar que en la UI aparecen los modelos, que el chat responde y que la GPU se está utilizando durante las consultas.

Conclusión práctica: para ejecutar LLMs locales con GPU en una máquina modesta hay que coordinar tres capas principales, Ollama en modo escucha adecuada, configuración del runtime GPU en Docker y limpieza de configuraciones guardadas en la UI y el navegador. Con las tres alineadas el sistema funciona de forma fluida y eficiente.

Sobre Q2BSTUDIO: somos una empresa de desarrollo de software especializada en aplicaciones a medida y software a medida, con amplia experiencia en inteligencia artificial aplicada a empresas, ciberseguridad y servicios cloud aws y azure. Ofrecemos soluciones personalizadas que incluyen desde agentes IA y automatización de procesos hasta servicios de inteligencia de negocio y Power BI. Si buscas desarrollar soluciones a medida contamos con equipos expertos listos para impulsar tu proyecto, visita desarrollo de aplicaciones multiplataforma y conoce cómo adaptamos software a las necesidades del negocio.

Además, si tu objetivo es incorporar IA para empresas, optimizar infraestructuras en la nube o proteger activos digitales, en Q2BSTUDIO entregamos servicios integrales desde consultoría hasta implementación. Explora nuestras capacidades en inteligencia artificial y transforma procesos con agentes IA y análisis con Power BI visitando nuestra página de inteligencia artificial.

Palabras clave integradas naturalmente en este artículo: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi para mejorar el posicionamiento y facilitar que los interesados encuentren soluciones profesionales y escalables.

Si quieres soporte práctico para montar este entorno, migrar modelos, optimizar costes en la nube o integrar agentes IA en tus procesos de negocio, contacta con Q2BSTUDIO y te ayudamos a implementar la solución más adecuada a tus objetivos.

Fin del artículo, inicio de la diversión

Usa solo las flechas

Score

Game Over

Play Again

¿cómo podemos ayudarte?

Business Intelligence

ciber seguridad

APP

Inteligencia Artificial

Construyendo software juntos