Las opiniones expresadas en este artículo son personales y no representan a mi empleador. Cualquier mención de soluciones, APIs o productos tiene fines informativos y de conversación y no debe interpretarse como un aval.
Ejecutar Gemma 3 27B con Ollama en un portátil potente o en un PC de gaming ofrece un rendimiento excelente. Es un modelo versátil, con buen conocimiento del mundo y muy capaz en tareas de transformación de texto como resumen, reescritura y más. Además, Ollama admite prompts de sistema, por lo que puedes definir una personalidad y convertir el modelo en un chatbot divertido y útil.
Hoy ya es posible ejecutar modelos de 8 mil millones de parámetros en Android modernos, por ejemplo Gemma 3n E2B y Gemma 3n E4B a través de Google AI Edge Gallery. Sin embargo, ningún dispositivo móvil actual dispone de memoria suficiente para correr modelos de 27 mil millones de parámetros.
Como alternativa, podemos ejecutar el modelo en tu equipo de casa y crear un túnel desde el teléfono hacia tu red doméstica, de modo que la app Android consuma la API local como si estuviera en la misma red.
Ollama
Ollama es un runtime local para LLMs que simplifica al máximo el uso de modelos de pesos abiertos. Con un único comando descargas el modelo y lo ejecutas en local, incluso sin GPU, ya que puede funcionar con CPU. Incluye un servidor web y una API REST para inferencia, lo que elimina configuraciones complejas y la necesidad de gestionar entornos de Python. Además, cuenta con una app de escritorio que facilita todavía más la interacción con modelos locales. Aunque aquí nos centramos en Gemma 3 27B, el mismo flujo funciona con cualquier modelo disponible en Ollama que tu equipo pueda soportar.
Tailscale
Tailscale crea una red mallada segura entre tus dispositivos. Tras instalarlo en tu portátil y tu teléfono, ambos podrán comunicarse como si compartieran la misma red local, incluso estando a miles de kilómetros. Basado en el protocolo WireGuard, se encarga de la configuración por ti, así que no tendrás que pelear con reglas de cortafuegos, ajustes de routers ni aperturas de puertos.
Una librería Android a medida para la API de Ollama
Para la app Android implementé una librería específica que consume la API de Ollama utilizando APIs genéricas de Kotlin con el objetivo de poder evolucionarla hacia KMP. El modelado de peticiones y respuestas se realiza con kotlinx.serialization, definiendo data classes serializables para mantener conversión JSON a objetos Kotlin de forma tipada y segura. Esto permite soportar generación y chat, opciones de decodificación y campos de telemetría de inferencia sin tener que escribir código de parsing manual.
Cliente HTTP con Ktor
Para las llamadas HTTP empleé Ktor con el motor CIO, una opción ligera y escrita en Kotlin. En caso de evolucionar a KMP con soporte para iOS, bastaría con añadir el motor Darwin. También es posible ajustar timeouts y la negociación de contenido con ContentNegotiation y JSON de forma muy directa.
Conectividad y seguridad
En Android recuerda declarar el permiso INTERNET en el manifiesto y habilitar usesCleartextTraffic para conectar fácilmente con tu servidor local de Ollama por HTTP. Aunque normalmente se recomienda HTTPS, al usar Tailscale el tráfico entre el teléfono y el portátil viaja con cifrado de extremo a extremo, lo que mantiene la comunicación protegida sin configuraciones adicionales.
Flujo de uso resumido
1. Instala Ollama en tu equipo y descarga el modelo Gemma 3 27B desde el catálogo oficial. 2. Verifica que el servidor de Ollama expone su API localmente. 3. Instala Tailscale en tu equipo y teléfono, inicia sesión y asegúrate de que ambos dispositivos se ven en la misma red privada. 4. Configura la app Android para apuntar a la IP de Tailscale y el puerto del servidor de Ollama. 5. Consume los endpoints de generación y chat desde la app, activando stream si deseas respuesta token a token para una experiencia más fluida.
Rendimiento y experiencia
Tras numerosas pruebas, el resultado es sobresaliente. Con 5G o incluso LTE la latencia percibida es mínima, lo que permite mantener conversaciones casi en tiempo real. Mientras mantengas conexión, tu teléfono puede actuar como una interfaz de IA privada apoyada en un LLM de tamaño medio que corre en tu propio hardware.
Recursos útiles
Puedes consultar Gemma en la página oficial de DeepMind y el catálogo de modelos en Ollama. Si trabajas con Android actual, explora las opciones de modelos optimizados en la galería de Google AI Edge.
Cómo puede ayudarte Q2BSTUDIO
En Q2BSTUDIO desarrollamos soluciones de aplicaciones a medida y software a medida que integran modelos de lenguaje locales o en la nube, automatización de procesos, agentes IA y analítica avanzada. Podemos construir tu backend con Ollama, asegurar la conectividad privada con Tailscale o alternativas empresariales, y desplegar servicios en plataformas cloud como AWS y Azure. Si estás valorando una app Android con IA generativa, un asistente conversacional corporativo o una plataforma de datos con visualización en Power BI, nuestro equipo puede acompañarte de extremo a extremo.
Si buscas un partner en inteligencia artificial y ia para empresas, descubre cómo aplicamos estas tecnologías para acelerar productos digitales, reforzar ciberseguridad y extraer valor de tus datos. Te invitamos a explorar nuestras líneas de aplicaciones a medida y nuestras capacidades en inteligencia artificial, incluyendo agentes IA, servicios cloud AWS y Azure, servicios de inteligencia de negocio y cuadros de mando con Power BI. También ofrecemos auditorías y hardening de ciberseguridad para proteger tus activos digitales.
Palabras clave estratégicas integradas en este artículo para mejorar el posicionamiento: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA, power bi y automatización de procesos.