POLITICA DE COOKIES

Q2BSTUDIO.COM utiliza cookies técnicas, analíticas, de sesión y de publicidad con la finalidad de prestar un mejor servicio. No obstante, necesitamos su consentimiento explícito para poder utilizarlas. Así mismo puede cambiar la configuración de las cookies u obtener más información aquí .

Contacto ¡ Te esperamos !

Blog Software Actualidad

Studio Más sobre Q2B

Proyectos ¿ Que Hemos Hecho ?

Servicios ¿ Que Hacemos ?

Contacto ¡ Te esperamos !

Proyectos ¿ Que Hemos Hecho ?

Servicios ¿ Que Hacemos ?

Blog Software Actualidad

Studio Más sobre Q2B

Volver

Gemma 2B en Kubernetes con Ollama: Configuración Local de IA

Gemma 2B en local: despliegue reproducible y persistente con k3d, Ollama y Kubernetes

Publicado el 20/09/2025

Me fascinó descubrir cómo se ejecutan modelos de lenguaje grandes de forma local y totalmente offline sin depender de costosos clusters GPU o APIs en la nube, pero al intentar desplegar Gemma 2B manualmente en mi equipo el proceso fue desordenado: había que descargar pesos enormes, al reiniciar el contenedor todo se volvía a descargar y no había orquestación ni resiliencia, así que si el contenedor moría se perdía toda la configuración.

La pregunta fue sencilla: se puede ejecutar Gemma 2B de forma eficiente, totalmente conteinerizada y orquestada por Kubernetes con una configuración local limpia Sin duda la respuesta es sí utilizando k3d más Ollama más Kubernetes y Gemma 2B, logrando un entorno local reproducible y persistente.

Qué aprenderás en este artículo despliegue de Gemma 2B usando Ollama dentro de un clúster k3d cómo exponer la API localmente cómo persistir los pesos del modelo para evitar redescargas y soluciones básicas de troubleshooting para pods y contenedores.

Stack técnico k3d para un Kubernetes ligero dentro de Docker, Ollama como runtime para LLMs que permite ejecutar modelos como Gemma y Llama y ofrece una API REST local, Gemma 2B modelo ligero de Google de aproximadamente 1.7GB que funciona offline y WSL2 si trabajas desde Windows.

Conceptos clave Ollama es una herramienta simple para ejecutar LLMs localmente descarga modelos y expone un endpoint REST para inferencia y una vez descargados los pesos funciona completamente offline. Por qué Kubernetes y por qué k3d en lugar de ejecutar Ollama a pelo porque k3d levanta un K8s muy ligero dentro de Docker y nos da pods, PVCs y servicios para gestionar ciclo de vida escalado y persistencia de forma estándar.

Importancia del almacenamiento con PVC sin un PersistentVolumeClaim cada vez que el pod muera perderás los pesos del modelo. Con PVC los modelos sobreviven a reinicios, escalados y redeploys.

Paso a paso resumen 1 Instalar k3d ejecutar curl -s https://raw.githubusercontent.com/k3d-io/k3d/main/install.sh | bash y luego k3d cluster create gemma-cluster --agents 1 --servers 1 2 Desplegar Ollama en Kubernetes crear un deployment que monte un PVC para /root/.ollama y un servicio tipo LoadBalancer que exponga el puerto 11434 3 Descargar Gemma 2B dentro del pod con kubectl exec -it deploy/ollama -- ollama pull gemma:2b 4 Probar la API consumiendo el endpoint local /api/generate indicando el modelo gemma:2b y un prompt sencillo como escribir un poema corto sobre Kubernetes.

Consejos prácticos evita poner todo sin persistencia usa PVCs para el almacenamiento de pesos si ves CrashLoopBackOff revisa logs del pod y ajusta recursos CPU y memoria en el spec si el modelo se vuelve a descargar tras reinicios confirma que el volumen realmente está montado y que el claim está ligado a un PV en el cluster para exponer puertos en k3d usa el tipo LoadBalancer y mapea puertos de k3d a localhost para accesibilidad local.

Errores comunes y soluciones el pod en CrashLoopBackOff suele requerir más CPU o RAM o variables de entorno mal configuradas la re-descarga de modelos se soluciona con PVC y permisos de volumen incorrectos se corrigen ajustando securityContext o ownership del directorio donde Ollama almacena los pesos problemas de puerto se resuelven con la configuración de LoadBalancer y el mapeo de puertos de k3d.

Estructura final del proyecto ejemplo gemma-k3d con archivos de despliegue como ollama-deployment.yaml script de creación k3d-cluster-setup.sh y un README con instrucciones reproducibles es una buena práctica para mantener el entorno consistente y versionado.

Próximos pasos y monitoring en una siguiente fase se pueden añadir Prometheus y Grafana para monitorizar uso de CPU memoria y latencia por inferencia y así tener visibilidad de costes y rendimiento en entornos de desarrollo y pruebas.

Sobre Q2BSTUDIO somos Q2BSTUDIO empresa especializada en desarrollo de software y aplicaciones a medida que ofrece soluciones integrales en inteligencia artificial ciberseguridad servicios cloud aws y azure y servicios de inteligencia de negocio. Ayudamos a empresas a integrar modelos LLM en sus procesos creando soluciones de software a medida y aplicaciones a medida seguras y escalables. Si te interesa potenciar tus proyectos con IA corporativa visita nuestra página de inteligencia artificial para empresas en servicios de inteligencia artificial y si necesitas desarrollar una aplicación personalizada conoce nuestro enfoque en software a medida y aplicaciones a medida.

Palabras clave integradas para mejorar posicionamiento aplicaciones a medida software a medida inteligencia artificial ciberseguridad servicios cloud aws y azure servicios inteligencia de negocio ia para empresas agentes IA power bi y automatización de procesos. Contacta con Q2BSTUDIO para asesoría sobre cómo poner Gemma 2B en producción local o en la nube y para diseñar soluciones de IA seguras y adaptadas a tu negocio.

Si quieres puedo facilitar ejemplos de manifest YAML listados de comandos exactos y un archivo de despliegue listo para aplicar en tu clúster k3d y así acelerar la puesta en marcha de tu entorno local de LLMs.

Fin del artículo, inicio de la diversión

Usa solo las flechas

Score

Game Over

Play Again

¿cómo podemos ayudarte?

Business Intelligence

ciber seguridad

APP

Inteligencia Artificial

Construyendo software juntos