POLITICA DE COOKIES

Q2BSTUDIO.COM utiliza cookies técnicas, analíticas, de sesión y de publicidad con la finalidad de prestar un mejor servicio. No obstante, necesitamos su consentimiento explícito para poder utilizarlas. Así mismo puede cambiar la configuración de las cookies u obtener más información aquí .

Ejecutando IA local en Linux con GPU: Ollama + Open WebUI + Gemma

Ejecución de IA local en Linux con GPU: Ollama + Open WebUI + Gemma

Publicado el 17/11/2025

Hola, soy Maneshwar y en este artículo explico cómo ejecutar modelos LLM modernos de tamaño pequeño localmente en Linux con GPU, Docker y Ollama, recogiendo los problemas reales que aparecen y cómo solucionarlos para tener un entorno estable y productivo.

Resumen del contexto y hardware: equipo con GPU GTX 1650 de 4GB VRAM y 16GB de RAM. Con este perfil las opciones ideales son modelos compactos pero potentes que funcionen dentro de los 4GB de VRAM.

Elección de modelos recomendados para 4GB VRAM: Phi 3 o Phi 2 por velocidad y razonamiento sorprendente para su tamaño, Gemma 2 2B por calidad de salida aunque algo más pesado, Qwen 1.8B por su capacidad multilingue y rendimiento, y TinyLlama 1.1B para chats muy ligeros. En resumen: Phi para latencia y ligereza, Gemma para mejores respuestas, Qwen para multilingue, TinyLlama para tareas básicas.

Instalación y gestión de modelos con Ollama: Ollama simplifica la gestión. Instalar Ollama con el instalador oficial y luego descargar modelos con ollama pull nombre_modelo. Verificar los modelos con ollama list y arrancar el servidor Ollama antes de conectar cualquier UI.

Soporte GPU en Docker: es imprescindible instalar el toolkit de contenedores de NVIDIA para que Docker pueda acceder a la GPU. Tras instalar nvidia-container-toolkit hay que configurar el runtime de Docker con nvidia-ctk runtime configure --runtime=docker y reiniciar el servicio Docker. Para comprobar dentro de un contenedor: docker run --rm --gpus all nvidia/cuda:12.3.0-base-ubuntu22.04 nvidia-smi y verificar que la GPU aparece dentro del contenedor.

Opciones de Web UI para LLMs locales: Jan AI (cliente de escritorio Electron, buena para uso offline), AnythingLLM (framework RAG y KB con UI) y Open WebUI (UI moderna con soporte GPU y buena integración con Ollama). En este proyecto elegí Open WebUI por su integración con Ollama, construcciones optimizadas para GPU, extensibilidad y gran comunidad.

Ejecutando Open WebUI con soporte CUDA: levantar el contenedor de Open WebUI con variables de entorno que apunten al host de Ollama, exponer puertos y montar volúmenes de datos. Asegurarse de pasar --gpus all para acelerar inferencia en GPU. Tras arrancar, comprobar que la UI lista los modelos y que las inferencias usan GPU.

Solución de problemas frecuente: Open WebUI no puede conectarse a Ollama. Causas y correcciones aplicadas en un caso real: 1) Ollama por defecto solo escuchaba en 127.0.0.1, por lo que fue necesario configurar el servicio systemd para exportar OLLAMA_HOST=0.0.0.0:11434 y reiniciar Ollama para que escuche en todas las interfaces. 2) Open WebUI pudo haber guardado un host incorrecto en su base de datos SQLite, por lo que borrar el volumen y recrear el contenedor limpió esa configuración. 3) El navegador pudo tener en localStorage la URL equivocada, por lo que limpiar localStorage o actualizar la conexión en Settings resolvió el problema. Tras alinear el binding de Ollama, las variables de entorno del contenedor y la configuración del navegador, la comunicación fue estable.

Comprobaciones finales: desde el contenedor de Open WebUI ejecutar curl a la API de Ollama para listar modelos y confirmar la presencia de phi y gemma, verificar que en la UI aparecen los modelos, que el chat responde y que la GPU se está utilizando durante las consultas.

Conclusión práctica: para ejecutar LLMs locales con GPU en una máquina modesta hay que coordinar tres capas principales, Ollama en modo escucha adecuada, configuración del runtime GPU en Docker y limpieza de configuraciones guardadas en la UI y el navegador. Con las tres alineadas el sistema funciona de forma fluida y eficiente.

Sobre Q2BSTUDIO: somos una empresa de desarrollo de software especializada en aplicaciones a medida y software a medida, con amplia experiencia en inteligencia artificial aplicada a empresas, ciberseguridad y servicios cloud aws y azure. Ofrecemos soluciones personalizadas que incluyen desde agentes IA y automatización de procesos hasta servicios de inteligencia de negocio y Power BI. Si buscas desarrollar soluciones a medida contamos con equipos expertos listos para impulsar tu proyecto, visita desarrollo de aplicaciones multiplataforma y conoce cómo adaptamos software a las necesidades del negocio.

Además, si tu objetivo es incorporar IA para empresas, optimizar infraestructuras en la nube o proteger activos digitales, en Q2BSTUDIO entregamos servicios integrales desde consultoría hasta implementación. Explora nuestras capacidades en inteligencia artificial y transforma procesos con agentes IA y análisis con Power BI visitando nuestra página de inteligencia artificial.

Palabras clave integradas naturalmente en este artículo: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi para mejorar el posicionamiento y facilitar que los interesados encuentren soluciones profesionales y escalables.

Si quieres soporte práctico para montar este entorno, migrar modelos, optimizar costes en la nube o integrar agentes IA en tus procesos de negocio, contacta con Q2BSTUDIO y te ayudamos a implementar la solución más adecuada a tus objetivos.

Fin del artículo, inicio de la diversión
Construyendo software juntos

Dando vida a tus ideas desde 2008

Diseñamos aplicaciones móviles y de escritorio innovadoras que cumplen con tus requisitos específicos y mejoran la eficiencia operativa.
Más info
Cuéntanos tu visión
Sea cual sea el alcance, podemos convertir tu idea en realidad. Envíanosla y charlemos sobre tu proyecto o una colaboración futura.
Contáctanos
artículos destacados
Live Chat
Enviado correctamente.

Gracias por confiar en Q2BStudio