POLITICA DE COOKIES

Q2BSTUDIO.COM utiliza cookies técnicas, analíticas, de sesión y de publicidad con la finalidad de prestar un mejor servicio. No obstante, necesitamos su consentimiento explícito para poder utilizarlas. Así mismo puede cambiar la configuración de las cookies u obtener más información aquí .

Construyendo un chatbot con Python (Backend)

Backend del pipeline de PDFs a embeddings y búsqueda semántica con FAISS para el chatbot RAG Indaba

Publicado el 16/09/2025

En este artículo describimos el backend de un pipeline que procesa documentos PDF para convertirlos en embeddings vectoriales y construir un índice FAISS para búsqueda semántica, componente esencial del chatbot RAG Indaba. Además presentamos a Q2BSTUDIO, empresa especializada en desarrollo de software, aplicaciones a medida, inteligencia artificial y ciberseguridad, y explicamos cómo este tipo de soluciones encajan con nuestros servicios.

Resumen de responsabilidades: cargar PDFs desde una carpeta, extraer texto con PyPDF2, fragmentar documentos largos en segmentos superpuestos, convertir fragmentos en embeddings con SentenceTransformers, construir y persistir un índice FAISS para búsquedas por similitud y almacenar los fragmentos crudos para su posterior recuperación en tiempo de ejecución.

Importaciones y preparación: se usan módulos como os para operaciones de sistema de archivos, pickle para guardar la información preprocesada, numpy para manejo numérico, PyPDF2 para extraer texto de PDF, SentenceTransformer para el modelo de embeddings all-MiniLM-L6-v2 y faiss para búsquedas eficientes por similitud. Se definen constantes como el modelo embedder = SentenceTransformer(all-MiniLM-L6-v2) y rutas para INDEX_FILE = faiss_index.bin y CHUNKS_FILE = chunks.pkl. Cargar el modelo descargará pesos la primera vez y puede tardar.

Función para cargar PDF: la rutina abre el archivo con PdfReader, recorre las páginas y concatena el texto extraído página por página, devolviendo el documento completo como cadena de texto. Esta extracción es la base para los pasos posteriores de chunking y embedding.

Función para fragmentar texto: el método divide el texto en fragmentos de tamaño configurable chunk_size con un solapamiento overlap entre fragmentos consecutivos. Por ejemplo, con chunk_size 500 y overlap 100 los fragmentos serían 0-500, 400-900, etc. Este solapamiento mejora la recuperación de contexto en búsquedas semánticas.

Pipeline completo: 1 Recolectar fragmentos de todos los PDFs: se recorre la carpeta donde están los documentos, se extrae texto y se fragmenta añadiendo cada chunk a una lista global all_chunks. El orden importa porque los ids internos de FAISS coinciden con el orden de inserción. 2 Generar embeddings: use embedder.encode(all_chunks) para convertir cada fragmento en un vector. Para colecciones grandes procese por lotes, por ejemplo batch_size 32 y forzar dtype float32 con numpy para compatibilidad con FAISS. 3 Crear índice FAISS: obtenga la dimensión dim = vectors.shape[1], cree un índice exacto IndexFlatL2(dim) y añada los vectores con index.add(vectors). IndexFlatL2 realiza búsqueda exacta por distancia L2 y es adecuado para colecciones pequeñas o medianas; para grandes colecciones considere índices aproximados. 4 Persistir índice y fragmentos: guarde el índice con faiss.write_index(index, INDEX_FILE) y los fragmentos con pickle.dump(all_chunks, open(CHUNKS_FILE, wb)). En tiempo de ejecución el frontend carga estos ficheros para responder consultas.

Consejos prácticos: procese embeddings por lotes para evitar OOM, monitorice uso de memoria GPU/CPU, valide la calidad del texto extraído (PyPDF2 puede no captar bien PDFs escaneados o con OCR necesario), y conserve el mapeo entre ids de FAISS y texto para recuperar contexto exacto al responder.

Cómo ejecutar: coloque los PDFs en la carpeta docs o la ruta que defina pdf_folder y ejecute el script backend para generar faiss_index.bin y chunks.pkl en el directorio actual. Estos artefactos se usan después en la aplicación web o servicio de chatbot para búsquedas semánticas en tiempo real.

Sobre Q2BSTUDIO: somos una empresa de desarrollo de software y aplicaciones a medida que combina experiencia en inteligencia artificial, ciberseguridad y servicios cloud para entregar soluciones completas a empresas. Diseñamos agentes IA, implementamos pipelines de ia para empresas y ofrecemos servicios de integración con herramientas como power bi para inteligencia de negocio. Si necesita soluciones de desarrollo a medida visite nuestra página de desarrollo de aplicaciones y software a medida y para proyectos de inteligencia artificial consulte nuestros servicios de inteligencia artificial.

Palabras clave y servicios: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi. En Q2BSTUDIO integramos estas capacidades para ofrecer soluciones seguras, escalables y orientadas a resultados.

Si desea asesoramiento para implantar un chatbot RAG, mejorar la búsqueda semántica en su organización o desplegar pipelines de IA productivos, contacte con Q2BSTUDIO y le ayudamos a diseñar la arquitectura, seleccionar modelos y optimizar despliegues en la nube.

Fin del artículo, inicio de la diversión
Construyendo software juntos

Dando vida a tus ideas desde 2008

Diseñamos aplicaciones móviles y de escritorio innovadoras que cumplen con tus requisitos específicos y mejoran la eficiencia operativa.
Más info
Cuéntanos tu visión
Sea cual sea el alcance, podemos convertir tu idea en realidad. Envíanosla y charlemos sobre tu proyecto o una colaboración futura.
Contáctanos
artículos destacados
Live Chat
Enviado correctamente.

Gracias por confiar en Q2BStudio