Construyendo un Sistema de RAG basado en navegador con WebGPU

Construí una prueba de concepto que permite conversar con documentos PDF usando modelos de inteligencia artificial que se ejecutan totalmente en el navegador mediante WebGPU. Sin backend, sin claves de API, privacidad completa. La idea fue explorar si se puede ejecutar un pipeline RAG en cliente, es decir Retrieval-Augmented Generation que combina búsqueda documental con generación de lenguaje natural, todo localmente.

RAG normalmente necesita una base de vectores, un modelo de embeddings, un modelo de lenguaje y lógica de orquestación. Sorprendentemente, los navegadores modernos ya pueden encargarse de estas piezas: carga de modelos optimizados para MLC, extracción y particionado de PDFs, generación de embeddings con Transformers.js, almacenamiento vectorial en IndexedDB y ejecución del LLM mediante WebLLM sobre WebGPU o WebAssembly como fallback.

Stack del proyecto: Angular 20 en frontend, WebLLM y una bifurcación optimizada de WeInfer para inferencia, Transformers.js para embeddings all-MiniLM-L6-v2, almacenamiento en IndexedDB y PDF.js para parseo. El despliegue de la demo se hizo en Vercel como prueba.

Cómo funciona en términos prácticos: al cargar un PDF se parsea y se divide en fragmentos de texto, cada fragmento se embebe y se guarda en el vector store local. En una consulta el texto de la pregunta también se embebe, se busca por similitud coseno en IndexedDB, se extraen los top-k fragmentos relevantes y se pasan como contexto al LLM que genera la respuesta. Todo ocurre en el dispositivo del usuario.

Algunos retos encontrados: WebGPU requiere aislamiento cross origin con SharedArrayBuffer, lo que implica cabeceras especiales y atención a recursos externos. La gestión de memoria es crítica, los navegadores no están pensados para modelos de varios GB, por lo que hay que limpiar datos y gestionar caché. La compatibilidad con WebGPU aún no es universal, por lo que se debe ofrecer fallback y guiar al usuario sobre navegadores compatibles.

Mejoras pendientes: indexación vectorial real en vez de fuerza bruta, opciones de cuantización de modelos para equilibrar velocidad y calidad, estrategias de chunking más inteligentes, streaming para documentos muy grandes y soporte para formatos más allá de PDF.

Un beneficio clave: privacidad por diseño. Los documentos nunca salen del dispositivo, no hay llamadas a APIs ni subida a servidores, lo que lo hace ideal para documentos sensibles como legales o médicos y para entornos offline o usuarios preocupados por la privacidad.

En Q2BSTUDIO como empresa de desarrollo de software y aplicaciones a medida combinamos experiencia en inteligencia artificial, ciberseguridad y servicios cloud para transformar pruebas de concepto en soluciones empresariales robustas. Si su empresa necesita desarrollar una aplicación que integre procesamiento de lenguaje y RAG local, podemos ayudar desde el diseño hasta la puesta en producción, incluyendo auditoría de seguridad y despliegue en entornos AWS o Azure. Conozca nuestros servicios de inteligencia artificial y cómo adaptamos agentes IA para empresas visitando Inteligencia artificial para empresas en Q2BSTUDIO. Para proyectos que demandan soluciones personalizadas le invitamos a ver nuestra oferta de desarrollo de aplicaciones y software a medida.

Palabras clave que acompañan este enfoque: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi. En Q2BSTUDIO complementamos desarrollos de IA con prácticas de pentesting y hardening para proteger datos y modelos, y con integraciones de Business Intelligence y Power BI para explotar los resultados en cuadros de mando empresariales.

Esta prueba de concepto demuestra que la inferencia local en el navegador es viable y que WebGPU unido a WebAssembly y frameworks modernos permite soluciones de IA sorprendentemente capaces en cliente. Si le interesa explorar un caso de uso concreto, optimizar costos de infraestructura o asegurar el procesamiento local de datos sensibles, nuestro equipo puede acompañarle en todas las fases del proyecto.

Preguntas, ideas o interés en colaboración: contacte con Q2BSTUDIO y conversemos sobre cómo convertir este tipo de avances en productos reales y seguros para su organización.

Construyendo un Sistema de RAG basado en navegador con WebGPU

Juega un momento antes de irte

Cómo podemos ayudarte

Inteligencia artificial

Desarrollo de software

Servicios cloud

Ciberseguridad y pentesting

Business Intelligence

Automatización de procesos

Formación para empresas

Auditoría de código

Generación de imágenes con IA

Generación de vídeos con IA

Avatares conversacionales con IA

Marketing Online e IA

¿Tienes un proyecto en mente?

Construyendo un Sistema de RAG basado en navegador con WebGPU

Juega un momento antes de irte

Cómo podemos ayudarte

Inteligencia artificial

Desarrollo de software

Servicios cloud

Ciberseguridad y pentesting

Business Intelligence

Automatización de procesos

Formación para empresas

Auditoría de código

Generación de imágenes con IA

Generación de vídeos con IA

Avatares conversacionales con IA

Marketing Online e IA

Artículos relacionados

Transcripción y resumen de reuniones oficiales con socio de IA en Valencia - Más de 15 años de experiencia

La guía definitiva para encontrar transcripción y resumen de reuniones con inteligencia artificial en Valencia

Top 100 Empresas de software web personalizado en Logroño

Compañía de servicios de software web personalizados en Lorca

¿Tienes un proyecto en mente?