Crea tu Frankenstack de IA: edición DIY

Publicado el 05/09/2025

Antes de nada, disculpas por la extensión: este es un plano práctico para montar tu propio stack de IA en local, el llamado Frankenstack. No es un tutorial paso a paso, sino una guía de herramientas, consejos reales, advertencias de rendimiento y cómo encajan entre sí. Todo lo aquí citado es software de código abierto y sin suscripciones obligatorias. La idea es combinar un LLM, generación de imágenes, texto a voz, búsqueda web y un frontend unificado, todo corriendo en tu equipo.

Resumen operativo: cada componente expone un servidor local y se orquesta desde el panel de administración del frontend. Esto es compatible con Windows y Linux. Yo uso Linux, pero he probado partes en Windows 11 sin problemas. La clave: ajustar bien las direcciones localhost y entender qué corre en CPU y qué en GPU.

Especificaciones de referencia para calibrar expectativas: portátil Alienware 15 R4 de 2018, GPU Nvidia GTX 1070 8 GB interna, GPU Nvidia RTX 3060 12 GB en dock externo, Intel i7, 32 GB de RAM, almacenamiento NVMe. El stack ronda 120 GB incluyendo unos 8 modelos entre LLM e imagen. Es intensivo en GPU y CPU, así que ajusta tu ambición a tu hardware.

LLM: LM Studio fue mi elección por su interfaz cuidadosa, opciones finas de rendimiento y funciones experimentales útiles para equipos modestos, como descargar parte del KV cache a memoria para ganar velocidad a coste potencial de calidad. Permite correr varios modelos a la vez si tu máquina lo soporta, y facilita buscar y descargar modelos desde Hugging Face sin salir de la app. Si prefieres Ollama, adelante, pero mi experiencia fue mejor con LM Studio.

Modelos que me funcionan bien: GPT-OSS 20B como caballo de batalla con razonamiento ajustable en bajo, medio y alto; bajo responde en segundos, alto puede tardar hasta un par de minutos. Aunque el modelo es 20B, suele activar 3 a 4B parámetros simultáneamente, lo que lo hace más ligero de lo que parece, y está entrenado para tool use. Mythalion 13B para escritura creativa y prompts de imagen, rápido y ameno, aunque no lo usaría para código. DeepSeek Coder R1 para scripts largos y complejos cuando otros modelos se desordenan a partir de 200 líneas; es el más lento de los que uso. Sobre visión, hay opciones 7B y similares; pruébalas si realmente lo necesitas. Consejo general: si tu GPU tiene 8 GB, prueba 7B o menos; los parámetros no siempre predicen el rendimiento real.

Generación de imágenes: uso A1111 por su sencillez y potencia. Tiene todo lo importante sin entrar en nodos como ComfyUI: LoRA, img2img, soporte de VAE y un sinfín de ajustes avanzados. Personalmente uso el modelo RevAnimated para casi todo y me basta para portadas, iterar conceptos de personajes y piezas puntuales. Además, su web UI independiente es útil si necesitas control fino de prompts y parámetros por fuera del frontend unificado.

Texto a voz: Chatterbox es la opción que me ha dado mejor calidad. Suena natural, similar a servicios comerciales, pero de forma local. Tarda unos segundos en arrancar por mensaje y luego hace streaming por fragmentos. Integra clonación de voz con muestras de 10 segundos a través de la plataforma del proveedor, y puedes cambiar la voz por defecto editando un script. La diferencia frente a alternativas como Tortoise o Coqui, para mi oído, es clara.

Búsqueda web: SearXNG como meta buscador local permite consultar a la vez Google, DuckDuckGo, Brave, y otros, devolviendo resultados agregados que el LLM puede usar como contexto. La configuración fue directa y estable, y además suelo ejecutar el stack bajo Warp de Cloudflare por privacidad ante el ISP; en el futuro quizá añada Tor. Si no quieres alojar SearXNG, el frontend puede invocar un navegador externo, pero tenerlo local resulta práctico.

Frontend: OpenWeb UI. Permite configurar herramientas, memorias, bases de conocimiento, ratings de respuestas y alternar entre modelos. Para ejecutar herramientas como imagen, búsqueda web o código, basta con activar el toggle bajo el campo de texto. En el panel de administración encontrarás modelos, evaluaciones, documentos, ejecución de código, pipelines y opciones de base de datos. Para TTS, puedes activar reproducción automática o escuchar cada mensaje manualmente. Si deseas modo totalmente offline, habilita la variable de entorno correspondiente para eliminar el login por email y contraseña. También es personalizable a nivel de marca; para usos comerciales con más de cierto número de usuarios existen condiciones específicas.

Personas y prompts base: fija el prompt principal en LM Studio si puedes, ya que suele estar en el nivel de mayor prioridad. OpenWeb UI ofrece un prompt de prioridad alta en el área de administración y, por usuario, otro adicional que se suma al del administrador y al del LLM. Si quieres filtros o estilos de respuesta consistentes, define primero el prompt maestro y luego añade matices por usuario.

Notas para Linux: tengo un lanzador y un alias aistart que enciende todo en secuencia para asignar bien recursos y GPUs, y un aistop para parar limpio. Al abrir en modo depuración lanzo varias terminales y la GUI de LM Studio para vigilar logs y consumos en tiempo real. Cuidado con la numeración de GPUs: nvidia-smi puede listar una cosa y las librerías ver otra; me pasó que TTS intentaba usar la GPU equivocada causando fallos del modelo principal. Revisa siempre qué servicio ocupa qué GPU.

Por qué no uso Docker: en mis primeras pruebas en Linux tuve líos con direcciones localhost con sufijos inesperados, y preferí eliminar dependencias y piezas móviles. Menos capas, menos puntos de fallo. En Windows quizá sea más directo; en Linux me dio más trabajo que beneficios. Si te sientes cómodo con contenedores, adelante, no es imprescindible.

Exponerlo a internet: compra un dominio, configúralo en Cloudflare, enlázalo en el frontend y levanta un túnel seguro, por ejemplo con Cloudflare Tunnel. Con eso podrás usar tu Frankenstack desde el móvil o cualquier navegador, ideal si tu equipo no es realmente portátil. En Android puedes guardar la página como app y la experiencia queda muy pulida. La configuración es corta, pero revisa documentación para tu caso.

Cierre y expectativas: nada de esto es plug and play si es tu primera vez. Habrá iteración, pruebas y errores. Documentación, foros y un buen LLM en la nube pueden salvarte horas. Cuando todo encaje, la satisfacción compensa con creces, y siempre puedes seguir afinando para ganar velocidad, por ejemplo acortando razonamiento en GPT-OSS o optimizando cuantización y offload del KV cache en tu LLM.

Sobre Q2BSTUDIO: somos una empresa de desarrollo de software con foco en aplicaciones a medida y software a medida, especialistas en inteligencia artificial, ciberseguridad, automatización de procesos y servicios cloud. Si tu organización busca llevar este Frankenstack al entorno productivo con buenas prácticas, agentes IA, pipelines MLOps y monitorización, podemos ayudarte. Conoce cómo aplicamos ia para empresas, casos de uso de visión, NLP y asistentes internos en nuestra página de inteligencia artificial, y si necesitas escalar e integrar con infraestructura segura, consulta nuestros servicios cloud AWS y Azure.

SEO útil y casos de uso: además de IA, trabajamos ciberseguridad y pentesting, servicios inteligencia de negocio y cuadros de mando con Power BI, integración de datos, automatización de procesos entre sistemas, y despliegues híbridos y multicloud. Tanto si quieres un asistente privado en on premise, como agentes IA conectados a ERP y CRM, nuestro equipo puede entregarlo de forma robusta y auditable para tu compliance y gobierno del dato.

Consejo final: empieza pequeño, mide el consumo, y crece por módulos. Ajusta el tamaño de los modelos a tu VRAM, usa cuantizaciones responsables, activa cacheado donde compense y ten un plan de logs. Con una base sólida, tu Frankenstack pasará de experimento a herramienta diaria de alto impacto.

POLITICA DE COOKIES

Crea tu Frankenstack de IA: edición DIY

Construye tu Frankenstack de IA: edición DIY

Dando vida a tus ideas desde 2008