POLITICA DE COOKIES

Q2BSTUDIO.COM utiliza cookies técnicas, analíticas, de sesión y de publicidad con la finalidad de prestar un mejor servicio. No obstante, necesitamos su consentimiento explícito para poder utilizarlas. Así mismo puede cambiar la configuración de las cookies u obtener más información aquí .

Contacto ¡ Te esperamos !

Blog Software Actualidad

Studio Más sobre Q2B

Proyectos ¿ Que Hemos Hecho ?

Servicios ¿ Que Hacemos ?

Contacto ¡ Te esperamos !

Proyectos ¿ Que Hemos Hecho ?

Servicios ¿ Que Hacemos ?

Blog Software Actualidad

Studio Más sobre Q2B

Volver

Búsqueda híbrida en Apache Solr está AHORA lista para producción (¡con vectores de 1024D!)

Búsqueda híbrida en Apache Solr con vectores de 1024D listo para producción.

Publicado el 09/12/2025

Hace pocos días compartimos experiments con búsqueda híbrida que combina búsqueda léxica tradicional y búsqueda semántica por vectores. Volvimos con mejoras importantes que llevan la búsqueda en Apache Solr a producción: embeddings de 1024 dimensiones, inferencia GPU rapidísima y un endpoint API gratuito para generar embeddings. Además ahora puedes buscar con emojis y obtener resultados relevantes, por ejemplo emoji de bicicleta encuentra accesorios para bicicleta y emoji de perro encuentra joyería temática para perros.

1. Embeddings de 1024 dimensiones. Cambiamos de modelos de 384D a un modelo de 1024D que captura mucha más sutileza semántica. Resultado práctico: búsquedas conceptuales y consultas en idiomas distintos al inglés funcionan notablemente mejor, así como terminología de nicho y consultas basadas en intención.

2. Inferencia en GPU. Antes la generación de embeddings en CPU tardaba 50 a 100 ms. Ahora en GPU toma aproximadamente 2 a 5 ms por consulta, lo que la hace más rápida incluso con latencias de red entre continentes.

3. Fórmula híbrida optimizada. Tras pruebas definimos una normalización robusta: score = vector_score + lexical_score / (lexical_score + k) usando k = 10 por defecto. Ventajas: la puntuación léxica queda en rango 0 a 1, ambas puntuaciones se combinan de forma estable, no hay divisiones por cero y la afinación es intuitiva porque k indica el punto donde lexical contribuye 0.5.

4. Filtrado de calidad con frange. Recomendamos filtrar coincidencias vectoriales basura con un frange mínimo, por ejemplo establecer umbral 0.3 para evitar ruido y mantener resultados de alta calidad.

Demos en vivo. Hemos preparado índices de demostración con un botón Debug que muestra los parámetros exactos de Solr y la salida debugQuery. Ejemplos: tienda de ferretería rumana donde el emoji de bicicleta devuelve espejos y soportes; tienda de joyería en inglés donde emojis encuentran piezas temáticas; índice de noticias que responde a consultas conceptuales sin contener necesariamente las palabras clave textuales.

Endpoint API gratuito para embeddings 1024D. Ponemos a disposición un endpoint que devuelve vectores listos para indexar en Solr. Este servicio facilita integrar búsqueda semántica en proyectos propios sin tener que gestionar modelos localmente.

Consejos prácticos y lecciones aprendidas. Repetir el título hasta 3 veces mejora resultados con modelos pequeños. topK define cuántos documentos considera la búsqueda vectorial, no el número final de resultados, mantén topK razonable entre 100 y 500. La búsqueda léxica sigue siendo esencial para coincidencias exactas; la hibridación combina lo mejor de ambos mundos. Usa archivos de sinónimos para cubrir términos específicos de dominio que el embedding no asocia naturalmente. Prioriza calidad sobre cantidad y emplea frange y topK adecuados.

Integración empresarial y servicios. En Q2BSTUDIO ofrecemos desarrollo de aplicaciones a medida y soluciones de inteligencia artificial para empresas, incluyendo agentes IA, IA para empresas y proyectos de inteligencia de negocio. También brindamos servicios de ciberseguridad y pentesting, servicios cloud AWS y Azure, y soluciones de Power BI y servicios inteligencia de negocio para explotar datos y obtener valor real. Si necesitas un buscador semántico integrado en un producto software a medida o una plataforma analítica con Power BI, nuestro equipo puede ayudar a diseñar, implementar y asegurar la solución.

Próximos pasos. Seguimos explorando fine tuning por dominio, técnicas como Reciprocal Rank Fusion y estrategias de caché más agresivas para rendimiento. Si tienes preguntas o quieres una consultoría para llevar búsqueda híbrida a producción, contacta con Q2BSTUDIO y conoce cómo podemos integrar esta tecnología en tu proyecto de software a medida, servicios cloud aws y azure, ciberseguridad o inteligencia de negocio.

Fin del artículo, inicio de la diversión

Usa solo las flechas

Score

Game Over

Play Again

¿cómo podemos ayudarte?

Process Automation

Programas gestión

ciber seguridad

desarrollo de software

Construyendo software juntos