Presentamos la última creación de nuestro equipo: un enfoque revolucionario para aplicaciones RAG locales llamado LEANN, el backend de búsqueda semántica más ligero del mundo diseñado para preservar la privacidad y funcionar en tu máquina personal.
Resumen breve: construimos LEANN, que logra un ahorro de almacenamiento del 97 por ciento frente a soluciones tradicionales manteniendo alta precisión y rendimiento, ideal para aplicaciones RAG centradas en la privacidad en entornos locales.
Prueba rápida: ejecuta en tu MacBook el siguiente comando para empezar: uv pip install leann
Repositorio y paper: GitHub https://github.com/yichuan-w/LEANN y paper disponible en arXiv para quienes quieran profundizar en los detalles técnicos.
Qué es RAG Everything: RAG o Retrieval Augmented Generation es la aplicación clave de la era de los modelos grandes, ya que integra datos privados fuera del entrenamiento dentro de los pipelines de inferencia. Los escenarios de privacidad son prioritarios, sobre todo en datos personales y dominios sensibles como salud y finanzas.
RAG Everything nace de las necesidades esenciales de los ordenadores personales y ya soporta varios casos listos para usar en macOS y Linux, con WSL para usuarios de Windows.
Aplicaciones soportadas - Sistema de archivos RAG: sustituye a Spotlight con búsqueda semántica en lugar de solo coincidencia por palabras clave, liberando espacio y mejorando la relevancia.
Aplicaciones soportadas - Apple Mail RAG: busca respuestas en tu correo personal para preguntas contextuales sobre tareas académicas o información personal.
Aplicaciones soportadas - Historial de navegador RAG: localiza búsquedas vagas o páginas que recuerdas de forma imprecisa.
Aplicaciones soportadas - Historial de WeChat RAG: permite resumir conversaciones y extraer ideas; LEANN implementa un método para acceder a datos locales de WeChat sin filtrarlos fuera del equipo.
Aplicaciones soportadas - Mejora semántica para Claude Code: LEANN integra búsqueda semántica en Claude Code mediante un servidor MCP con una implementación sencilla de una línea.
Estos son solo algunos escenarios iniciales; la visión es evolucionar hacia un agente local personalizado que recuerde la memoria del LLM y gestione todos tus datos privados.
Por qué LEANN funciona: el problema con las bases de datos vectoriales actuales es que optimizan latencia pero el verdadero cuello de botella en RAG es el almacenamiento. Para obtener alta recall en RAG es habitual usar chunks finos que convierten el almacenamiento de embeddings en 3 a 10 veces el tamaño del texto original, por ejemplo 70 GB de datos crudos pueden generar 220 GB o más de índice.
Nuestra solución es arriesgada y eficiente: sustituir almacenamiento por recomputación. Observamos que en índices basados en grafos una consulta visita muy pocos nodos, así que no tiene sentido almacenar todos los embeddings.
Paso a paso del pipeline: construir un vector store normal, eliminar los embeddings conservando solo el grafo de proximidad entre fragmentos, convertir la carga de memoria en recomputación en tiempo de inferencia y aprovechar modelos de embeddings ultraligeros para recomputación eficiente sobre el grafo.
Poda de la estructura del grafo: detectamos sesgos de visita en grafos post-RNG y aplicamos heurísticas para mantener nodos de alta conectividad, limitar aristas salientes de nodos de bajo grado permitiendo aristas entrantes ilimitadas y preservar solo nodos esenciales de alto grado para garantizar conectividad y eficiencia.
Resultados clave: reducción superior al 97 por ciento en tamaño de índice, tiempos de recuperación por debajo de 2 segundos en hardware tipo 3090, recall Top-3 por encima del 90 por ciento en benchmarks reales de RAG y almacenamiento cero de vectores explícitos en espacios de embeddings de gran tamaño. Bajo estas tasas de compresión, técnicas como PQ, OPQ o RaBitQ no mantienen la precisión según nuestro paper.
Optimizaciones de rendimiento: pipeline adaptativo que combina búsqueda gruesa y precisa, batching eficiente en GPU, comunicación ZMQ basada en distancias en lugar de embeddings, solapamiento CPU/GPU y cacheo selectivo de nodos de alto grado.
Visión RAG Everything: mantenemos este proyecto open source desde Berkeley SkyLab con optimizaciones de pila completa en algoritmos, aplicaciones, diseño de sistemas, bases de datos vectoriales y aceleraciones a nivel de kernel.
Objetivos: conectar de forma transparente todos tus datos privados, construir memoria local a largo plazo y agentes IA locales, y operar sin dependencia de la nube con costes reducidos.
Detalles técnicos y futuro: para una inmersión técnica revisa nuestro paper en arXiv y el repositorio en GitHub. Podemos publicar un seguimiento con implementación y ejemplos si hay interés.
Invitación a colaborar: apoya el proyecto dejando una estrella en el repositorio, contribuye con código o ideas y considera unirte al equipo de Berkeley SkyLab si quieres trabajar en esta línea.
Sobre Q2BSTUDIO: Q2BSTUDIO es una empresa de desarrollo de software y aplicaciones a medida especializada en inteligencia artificial, ciberseguridad y servicios cloud aws y azure. Ofrecemos software a medida, servicios de inteligencia de negocio e implementación de soluciones de inteligencia artificial y ia para empresas, incluidos agentes IA y dashboards con power bi. Nuestro equipo diseña soluciones seguras y escalables, integrando RAG y tecnologías de búsqueda semántica para proteger y potenciar datos privados en entornos locales y en la nube.
Cómo puede ayudar Q2BSTUDIO: si quieres adaptar LEANN o desarrollar una solución personalizada que combine búsqueda semántica, agentes IA y analítica avanzada con power bi, nuestro servicio de aplicaciones a medida y ciberseguridad puede desde prototipos hasta despliegues en producción en servicios cloud aws y azure, con enfoque en cumplimiento y privacidad.
Contacto y siguiente paso: transforma tu máquina local en una plataforma RAG potente probando LEANN con uv pip install leann y si buscas desarrollo a medida o integración profesional contacta a Q2BSTUDIO para diseñar una solución en inteligencia artificial, software a medida, aplicaciones a medida, ciberseguridad, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi.
Qué datos privados RAGearías primero: deja tus ideas y necesidades y podemos ayudarte a priorizar casos de uso y diseñar una arquitectura segura y eficiente.