Hola, soy Maneshwar y en este artículo explico cómo ejecutar modelos LLM modernos de tamaño pequeño localmente en Linux con GPU, Docker y Ollama, recogiendo los problemas reales que aparecen y cómo solucionarlos para tener un entorno estable y productivo.
Resumen del contexto y hardware: equipo con GPU GTX 1650 de 4GB VRAM y 16GB de RAM. Con este perfil las opciones ideales son modelos compactos pero potentes que funcionen dentro de los 4GB de VRAM.
Elección de modelos recomendados para 4GB VRAM: Phi 3 o Phi 2 por velocidad y razonamiento sorprendente para su tamaño, Gemma 2 2B por calidad de salida aunque algo más pesado, Qwen 1.8B por su capacidad multilingue y rendimiento, y TinyLlama 1.1B para chats muy ligeros. En resumen: Phi para latencia y ligereza, Gemma para mejores respuestas, Qwen para multilingue, TinyLlama para tareas básicas.
Instalación y gestión de modelos con Ollama: Ollama simplifica la gestión. Instalar Ollama con el instalador oficial y luego descargar modelos con ollama pull nombre_modelo. Verificar los modelos con ollama list y arrancar el servidor Ollama antes de conectar cualquier UI.
Soporte GPU en Docker: es imprescindible instalar el toolkit de contenedores de NVIDIA para que Docker pueda acceder a la GPU. Tras instalar nvidia-container-toolkit hay que configurar el runtime de Docker con nvidia-ctk runtime configure --runtime=docker y reiniciar el servicio Docker. Para comprobar dentro de un contenedor: docker run --rm --gpus all nvidia/cuda:12.3.0-base-ubuntu22.04 nvidia-smi y verificar que la GPU aparece dentro del contenedor.
Opciones de Web UI para LLMs locales: Jan AI (cliente de escritorio Electron, buena para uso offline), AnythingLLM (framework RAG y KB con UI) y Open WebUI (UI moderna con soporte GPU y buena integración con Ollama). En este proyecto elegí Open WebUI por su integración con Ollama, construcciones optimizadas para GPU, extensibilidad y gran comunidad.
Ejecutando Open WebUI con soporte CUDA: levantar el contenedor de Open WebUI con variables de entorno que apunten al host de Ollama, exponer puertos y montar volúmenes de datos. Asegurarse de pasar --gpus all para acelerar inferencia en GPU. Tras arrancar, comprobar que la UI lista los modelos y que las inferencias usan GPU.
Solución de problemas frecuente: Open WebUI no puede conectarse a Ollama. Causas y correcciones aplicadas en un caso real: 1) Ollama por defecto solo escuchaba en 127.0.0.1, por lo que fue necesario configurar el servicio systemd para exportar OLLAMA_HOST=0.0.0.0:11434 y reiniciar Ollama para que escuche en todas las interfaces. 2) Open WebUI pudo haber guardado un host incorrecto en su base de datos SQLite, por lo que borrar el volumen y recrear el contenedor limpió esa configuración. 3) El navegador pudo tener en localStorage la URL equivocada, por lo que limpiar localStorage o actualizar la conexión en Settings resolvió el problema. Tras alinear el binding de Ollama, las variables de entorno del contenedor y la configuración del navegador, la comunicación fue estable.
Comprobaciones finales: desde el contenedor de Open WebUI ejecutar curl a la API de Ollama para listar modelos y confirmar la presencia de phi y gemma, verificar que en la UI aparecen los modelos, que el chat responde y que la GPU se está utilizando durante las consultas.
Conclusión práctica: para ejecutar LLMs locales con GPU en una máquina modesta hay que coordinar tres capas principales, Ollama en modo escucha adecuada, configuración del runtime GPU en Docker y limpieza de configuraciones guardadas en la UI y el navegador. Con las tres alineadas el sistema funciona de forma fluida y eficiente.
Sobre Q2BSTUDIO: somos una empresa de desarrollo de software especializada en aplicaciones a medida y software a medida, con amplia experiencia en inteligencia artificial aplicada a empresas, ciberseguridad y servicios cloud aws y azure. Ofrecemos soluciones personalizadas que incluyen desde agentes IA y automatización de procesos hasta servicios de inteligencia de negocio y Power BI. Si buscas desarrollar soluciones a medida contamos con equipos expertos listos para impulsar tu proyecto, visita desarrollo de aplicaciones multiplataforma y conoce cómo adaptamos software a las necesidades del negocio.
Además, si tu objetivo es incorporar IA para empresas, optimizar infraestructuras en la nube o proteger activos digitales, en Q2BSTUDIO entregamos servicios integrales desde consultoría hasta implementación. Explora nuestras capacidades en inteligencia artificial y transforma procesos con agentes IA y análisis con Power BI visitando nuestra página de inteligencia artificial.
Palabras clave integradas naturalmente en este artículo: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi para mejorar el posicionamiento y facilitar que los interesados encuentren soluciones profesionales y escalables.
Si quieres soporte práctico para montar este entorno, migrar modelos, optimizar costes en la nube o integrar agentes IA en tus procesos de negocio, contacta con Q2BSTUDIO y te ayudamos a implementar la solución más adecuada a tus objetivos.