Como desarrolladores hemos vivido la transformación: los asistentes de codificación con inteligencia artificial han pasado de ser un complemento a convertirse en herramientas fundamentales del flujo de trabajo, ayudando a escribir código más limpio, comprender bases de código nuevas más rápido y pasar de la idea a la implementación con menos fricción. Sin embargo cuando se cae la conexión a Internet muchas de estas herramientas dejan de funcionar, por eso es vital poder ejecutar modelos localmente y mantener la productividad.
Hoy es posible usar asistentes de programación sin conexión. Extensiones como Continue.dev permiten cargar modelos locales descargados con herramientas como Ollama, LM Studio o Hugging Face y ejecutarlos directamente en VS Code. De esta forma el asistente permanece disponible aunque no haya Internet, con funcionalidades como chat, autocompletado y agentes IA listos para usar.
Cómo funciona en local: en lugar de enviar tu código y tus prompts a una API remota, el flujo mueve los modelos al equipo y realiza toda la inferencia en el dispositivo. El proceso típico es el siguiente: descargar el modelo en local desde repositorios como Hugging Face u Ollama; cargarlo en un runtime de inferencia compatible como GGML, llama.cpp o backends acelerados por GPU para situarlo en la RAM o VRAM; ejecutar la inferencia en CPU o GPU del equipo al enviar un prompt; y transmitir las respuestas directamente al editor para evitar latencia de red y mantener privacidad.
Instalación y uso de Ollama: Ollama es una plataforma para ejecutar modelos LLM en local. Para Windows y Mac se puede descargar desde la página de Ollama y seguir el instalador. En Linux se puede ejecutar el instalador oficial con este comando: curl -fsSL https://ollama.com/install.sh | sh. Tras la instalación la interfaz gráfica de Ollama permite gestionar y ejecutar modelos sin conexión.
Ejecutar un modelo con Ollama se hace con comandos como ollama run nombre-del-modelo. Por ejemplo ollama run deepseek-r1. Una vez descargado el modelo puedes interactuar con él desde el terminal o desde la GUI de Ollama sin necesidad de estar online.
Integración con VS Code mediante Continue.dev: instala la extensión Continue en VS Code desde el panel de extensiones. En la ventana de ajustes de la extensión configura una Local Config y crea un archivo config.yaml que indique los modelos locales y sus roles. Ejemplo de configuración simplificada para dos modelos: name: Local Assistant version: 1.0.0 schema: v1 models: - name: Qwen2.5-Coder 3B provider: ollama model: qwen2.5-coder:3b roles: - chat - edit - apply - name: Qwen2.5-Coder 1.5B (Autocomplete) provider: ollama model: qwen2.5-coder:1.5b roles: - autocomplete - name: Autodetect provider: ollama model: AUTODETECT context: - provider: code - provider: docs - provider: diff - provider: terminal - provider: problems - provider: folder - provider: codebase. Con esto el asistente local queda disponible dentro del editor y responde sin conexión.
Ventajas de ejecutar LLMs en local: privacidad y control de datos porque el código, los logs y los prompts no salen del equipo; posibilidad de personalización para elegir modelos Llama, Mistral, CodeLlama, Qwen y otros, ajustar longitudes de contexto, parámetros de inferencia o usar modelos afinados por tu equipo; rendimiento predecible al depender solo del hardware local y no de la carga de servidores; y reducción de costes al evitar pagos por token o llamadas a APIs externas.
En Q2BSTUDIO como empresa de desarrollo de software y aplicaciones a medida combinamos experiencia en software a medida, inteligencia artificial y ciberseguridad para ayudar a empresas a aprovechar los beneficios de los LLMs locales. Podemos integrar asistentes sin conexión dentro de proyectos y flujos de trabajo corporativos, garantizando cumplimiento y protección de datos, y ofreciendo soluciones a medida que incluyen automatización de procesos, agentes IA y cuadros de mando con Power BI para servicios inteligencia de negocio. Con nuestros servicios cloud aws y azure también orquestamos despliegues híbridos cuando se precisa combinar capacidad local y la nube.
Si tu prioridad es crear aplicaciones a medida o potenciar tu negocio con IA para empresas podemos ayudarte a diseñar e implementar la arquitectura adecuada, desde la descarga y gestión de modelos locales hasta la integración con repositorios internos y pipelines seguros. Consulta nuestros proyectos y soluciones de aplicaciones a medida y software a medida y descubre cómo incorporamos inteligencia artificial de forma responsable. Para iniciativas centradas en IA corporativa también encontrarás información sobre nuestros servicios en soluciones de inteligencia artificial.
Conclusión: la asistencia de codificación offline ya es factible y ofrece ventajas claras en privacidad, coste y control. Herramientas como Ollama y Continue.dev facilitan ejecutar LLMs en tu máquina y mantener la productividad aún sin Internet. En Q2BSTUDIO estamos listos para acompañarte en la adopción de estas tecnologías, integrando agentes IA, seguridad con prácticas de ciberseguridad y soluciones de inteligencia de negocio como Power BI para que tu empresa saque el máximo partido de la inteligencia artificial.