Siempre que necesitaba afinar un LLM o montar un sistema RAG me encontraba con el mismo obstáculo: tengo documentos, pero como los convierto en datos de entrenamiento. PDFs, páginas HTML, JSON, CSV, LaTeX, imágenes y más exigían nuevos scripts por cada proyecto, contextos inflados que gastaban tokens y cifras que a veces se corrompían sin avisar.
En Q2BSTUDIO hemos desarrollado un canal de código abierto llamado 3DCF/doc2dataset para resolver ese problema de raíz. Este canal procesa más de 30 formatos de documento comunes y crea datos de entrenamiento reproducibles y eficientes, ideal para equipos que trabajan con aplicaciones a medida y software a medida y necesitan soluciones robustas de inteligencia artificial.
Formatos compatibles incluyen PDF, Markdown, texto plano, HTML, XML, JSON, YAML, TOML, CSV, TSV, LaTeX, BibTeX, imágenes con OCR en PNG JPG GIF WebP, RTF y muchos otros. En vez de volcar texto crudo, 3DCF agrupa la información en macro-celdas que preservan el diseño y puntúan la importancia, logrando una compresión de tokens del orden de 5 a 6 veces sin perder contenido esencial.
Para documentos financieros y legales donde los números son críticos implementamos NumGuard, que extrae cada cifra, calcula un hash SHA-1 y la sigue a lo largo del pipeline. Si algún número cambia, se detecta de inmediato y se puede trazar la causa, evitando errores silenciosos en modelos o análisis.
El canal permite procesar una sola vez y exportar a múltiples formatos y marcos de trabajo: HuggingFace, LLaMA-Factory, Axolotl, formatos de fine tuning de OpenAI y triples para sistemas RAG. Está implementado en Rust para procesamiento paralelo y rendimiento, con bindings para Python y Node.js para integrarlo fácil en pipelines existentes.
Resultados de evaluación en documentos de política, informes financieros, documentación técnica y artículos científicos muestran mejoras significativas: precisión QA 98.0 frente a 91.3 de la línea base, tokens promedio de contexto 35.9 frente a 206 de la línea base y detección de corrupción numérica con recall 100% en 18 501 casos de prueba.
Quién se beneficia: equipos que construyen sistemas RAG sobre su propio corpus, quienes afinan LLMs con contenido específico de dominio, organizaciones que procesan documentos donde los números importan y cualquier equipo cansado de scripts ad hoc. El proyecto es completamente open source bajo licencia Apache-2.0, se puede instalar con cargo o pip y cuenta con documentación y ejemplos en el repositorio para empezar rápido.
En Q2BSTUDIO combinamos este tipo de herramientas con nuestros servicios profesionales: desarrollamos aplicaciones a medida y software a medida, implementamos soluciones de inteligencia artificial y diseñamos agentes IA para casos de uso empresariales. Si tu proyecto requiere integración con infraestructuras cloud trabajamos con servicios cloud aws y azure y ofrecemos consultoría en seguridad y pentesting para proteger los datos sensibles.
Además ofrecemos servicios inteligencia de negocio y dashboards Power BI para explotar los datos extraídos y entrenar modelos con información limpia y verificada. Si quieres explorar cómo integrar 3DCF/doc2dataset en tu flujo de trabajo o desarrollar una solución a medida, visita nuestra página de IA para empresas IA para empresas o conoce nuestros servicios de desarrollo de aplicaciones y software a medida en desarrollo de aplicaciones multiplataforma.
Preguntas, contribuciones o fallos detectados se atienden en el repositorio; deja una estrella si te resulta útil y abre issues para colaborar. En Q2BSTUDIO estamos listos para adaptar este canal a tus necesidades, desde integración con pipelines de datos hasta auditoría de integridad numérica y despliegue seguro en la nube.