Si ejecutas LLMs en local, seguramente has probado Ollama o LM Studio. Ambos son excelentes, pero tienen límites prácticos: LM Studio es ante todo una app de escritorio y no puede correr realmente en modo headless, mientras que con Ollama terminas haciendo SSH al servidor cada vez que quieres cambiar de modelo o ajustar parámetros.
Para tener más control existe llama-server de llama.cpp. Es potente, ligero, compatible con casi todos los formatos de modelo, ofrece una configuración muy amplia, expone APIs compatibles con OpenAI y, en mi experiencia, es notablemente más rápido que Ollama. ¿La pega? Es solo CLI: si quieres cambiar de modelo, toca entrar por SSH y reiniciar.
Yo quería gestionar mi servidor LLM doméstico desde cualquier lugar sin tener que conectarme por SSH solo para alternar modelos. Así que construí lo que faltaba: una capa de gestión sobre llama-server.
Presentamos llamactl
Conoce llamactl, un servidor de gestión y proxy que aporta el poder de llama-server con la comodidad de la administración remota. Incluye un panel web moderno en React para gestión visual, APIs REST para control programático y la capacidad de crear, iniciar y detener instancias con unos pocos clics. ¿Necesitas un modelo 7B para respuestas rápidas y un 70B para razonamiento complejo? Ejecuta ambos. ¿Quieres alternar en función de la tarea? Cambia el nombre del modelo en tu petición API.
Además, es compatible con la API de OpenAI, por lo que tus herramientas, scripts e integraciones actuales funcionan sin cambios: solo apúntalas al servidor de llamactl en lugar de a los endpoints de OpenAI. ¿Prefieres una interfaz tipo ChatGPT? Configura Open WebUI para usar llamactl como base de la API de OpenAI y charla al instante con cualquiera de tus modelos locales.
Qué aporta llamactl
• Servir múltiples modelos a la vez: combina un 7B por velocidad, un 70B por calidad o uno de visión para análisis de imágenes. Cambia entre ellos modificando el nombre del modelo en la solicitud.
• Panel web: UI moderna en React que evita el SSH. Crea instancias, monitoriza salud, consulta logs y gestiona todo desde el navegador.
• Gestión inteligente de recursos: apagado automático por inactividad, política LRU para mantener a mano lo más usado y límites configurables de instancias para no agotar recursos.
• Arranque bajo demanda: si apuntas a un modelo que no está corriendo, llamactl lo inicia automáticamente. Adiós a la duda de está el servidor levantado.
• Autenticación por claves API: llaves separadas para operaciones de gestión e inferencia.
• Persistencia de estado: si reinicias el servidor, tus instancias y configuración vuelven exactamente como las dejaste.
Mi configuración: LLMs en cualquier lugar
Ejecutó mis LLMs en un Mac Mini M4 Pro en casa. Sus 48 GB de memoria unificada me permiten trabajar con modelos grandes como Gemma 3 27B o Qwen 3 Coder 32B y alternar según necesidad.
Conecto el Mac Mini y un VPS en la nube mediante Tailscale. Así creo una red privada segura que se comporta como si ambos equipos estuvieran en la misma LAN, esté donde esté.
Arquitectura sencilla:
• Llamactl corre en el Mac Mini y gestiona las instancias de llama-server.
• Open WebUI también corre en local y ofrece una interfaz tipo ChatGPT.
• Traefik corre en el VPS como reverse proxy.
Traefik en el VPS enruta las peticiones a través de Tailscale hacia mi entorno doméstico, exponiendo una URL pública limpia, por ejemplo llm.midominio.com, que tuneliza de forma segura hacia mi laboratorio casero. Puedo desplegar cualquier modelo, alternar entre ellos y chatear con mis LLMs desde cualquier lugar con conexión a Internet. Sin cliente VPN, sin SSH, con seguridad zero-trust a cargo de Tailscale.
Lo que viene
Llamactl sigue evolucionando y ya hay varias mejoras en el radar: un panel de administración más completo con usuarios y contraseñas y mejor gestión de claves de inferencia; soporte para múltiples backends como vLLM o mlx_lm.server; una interfaz de chat sencilla integrada; y una planificación de recursos más inteligente con balanceo de carga y ubicación automática de modelos según el hardware.
Participa
Llamactl es open source, con repositorio en GitHub y documentación completa en llamactl.org. Si quieres probarlo, reportar bugs, proponer funciones o contribuir con código, toda la retroalimentación es bienvenida. Si estás cansado de hacer SSH solo para cambiar de modelo, dale una oportunidad a llamactl: puede ser la capa de gestión que no sabías que necesitabas.
Cómo te ayuda Q2BSTUDIO
En Q2BSTUDIO somos una empresa de desarrollo de software que diseña aplicaciones a medida y software a medida, especialistas en inteligencia artificial, ciberseguridad, servicios cloud AWS y Azure, servicios de inteligencia de negocio y power bi, además de automatización y agentes IA orientados a resultados. Te ayudamos a desplegar, orquestar y escalar LLMs como llama-server y llamactl, integrarlos con tus procesos, y llevar a producción soluciones de IA para empresas con foco en rendimiento, seguridad y coste.
Si buscas crear una plataforma de IA corporativa, desde el MLOps hasta la capa de producto, descubre cómo potenciamos tus iniciativas con nuestro equipo de expertos en inteligencia artificial y cómo optimizamos la infraestructura con nuestros servicios cloud AWS y Azure. Integramos analítica avanzada, servicios inteligencia de negocio y cuadros de mando con power bi para convertir tus datos en decisiones, y reforzamos tu postura de ciberseguridad desde el diseño.
¿Listo para acelerar tu roadmap de IA con arquitectura robusta, despliegues reproducibles y gobierno del dato? Contáctanos y diseñemos juntos una estrategia que combine agentes IA, buenas prácticas de seguridad, observabilidad y una base cloud eficiente que escale con tu negocio.