Gaoding Technology es una compañía tecnológica dedicada a ofrecer soluciones innovadoras de contenido visual para empresas y particulares. Su objetivo es transformar los flujos de trabajo de diseño y permitir que cualquier usuario cree y entregue valor mediante el diseño sin fricciones.
Con el avance acelerado de la inteligencia artificial, el almacenamiento y la gestión de datos se convirtieron en una infraestructura crítica para la innovación y el crecimiento de la empresa. Al principio, Gaoding utilizaba almacenamiento de objetos y servicios NAS de nubes públicas para sus datos de entrenamiento. Sin embargo, al escalar el negocio, la capacidad de GPU de un solo proveedor dejó de ser suficiente. Adoptaron entonces una estrategia multicloud para ganar flexibilidad, lo que abrió un nuevo frente técnico: cómo gestionar de forma unificada los datos de entrenamiento en múltiples nubes y habilitar lecturas y escrituras entre nubes de manera eficiente y con bajo costo.
Para resolverlo, introdujeron JuiceFS, un sistema de archivos distribuido de alto rendimiento. Su compatibilidad multicloud, mecanismos de montaje flexibles y un conjunto de herramientas completo facilitaron el acceso a datos entre entornos de nube heterogéneos. En la actualidad, JuiceFS gestiona los datasets de entrenamiento y las bibliotecas de modelos, simplificando drásticamente la administración de datos multicloud. Además, su caché eficiente acelera la carga de datos durante el entrenamiento y mejora la rapidez de montaje en la inferencia de modelos, impulsando rendimiento y eficiencia.
Desafíos de almacenamiento en el entrenamiento de IA En la práctica, el entrenamiento de modelos depende de cinco etapas intensivas en almacenamiento. 1. Recolección de datos almacenamiento de datos crudos desde múltiples fuentes. 2. Limpieza y preprocesamiento filtrado y preparación de los datos. 3. Entrenamiento uso de datos procesados y arquitecturas para ajustar el modelo. 4. Producción y verificación generación del artefacto del modelo y validación de calidad y rendimiento. 5. Servicio de inferencia despliegue del modelo verificado para su consumo en producción.
Puntos críticos de almacenamiento Volumen masivo datasets desde decenas de GB hasta cientos de TB. Alta exigencia de lectura la baja velocidad de lectura infravalora costosas GPU y desperdicia recursos. Gestión de datos calientes las mismas tandas se reutilizan en iteraciones, por lo que cachear estos datos acelera lecturas posteriores.
Las soluciones convencionales presentan límites. Con discos locales, adquirir y mantener grandes capacidades es costoso y obliga a combinar múltiples discos, además de acoplar datos y cómputo, lo que restringe la flexibilidad de orquestación. El almacenamiento de objetos es económico y su CSI en nubes públicas facilita montajes, pero su rendimiento de lectura y escritura suele ser insuficiente para entrenamientos a gran escala. El NAS en nube es habitual, aunque padece baja eficiencia operativa en borrados y copias, permisos poco granulares y dificultad para calcular con precisión el volumen por directorio; los NAS avanzados mejoran el rendimiento, pero elevan notablemente el coste.
A todo ello se sumó una limitación mayor: un único proveedor de nube pública ya no podía abastecer suficientes GPU. La escasez global de chips obligó a adoptar multicloud, y con ello surgió el reto de compartir datos de entrenamiento entre nubes con servicios NAS muy dispares. Era imprescindible replantear la arquitectura de almacenamiento para cumplir los requisitos de IA en multicloud.
Por qué eligieron JuiceFS Soporte nativo para multicloud integración con la mayoría de nubes públicas, replicación entre regiones y mirror file system para compartir datos sin complejidad ni sincronizaciones manuales. Lectura excepcional gracias a su caché distribuida multinivel, que aporta IOPS y throughput sobresalientes en cargas de IA. Gestión de datos crítica control de acceso basado en tokens suficiente para la operación diaria y papelera de reciclaje para recuperación rápida ante borrados accidentales. Conjunto de herramientas CSI para Kubernetes que simplifica despliegues, métricas de monitoreo ricas para diagnóstico y utilidades CLI potentes, con clonación instantánea que permite duplicar datasets de 1 o 2 TB en segundos frente a copias tradicionales lentas.
Durante la evaluación, se comparó el rendimiento de JuiceFS frente a un NAS concreto con 10 000 archivos aleatorios entre 200 KB y 3 MB, simulando imágenes típicas de entrenamiento. Hallazgos clave: con caché, JuiceFS ofreció una lectura muy superior; sin caché, fue levemente inferior al NAS. En escenarios reales, los datasets son conocidos y se precargan antes de entrenar, de modo que el beneficio de caché de JuiceFS se materializa plenamente. Además, en escrituras paralelas desde múltiples puntos, JuiceFS superó al NAS.
Práctica de almacenamiento de modelos en multicloud Antes de JuiceFS, Gaoding probó dos enfoques. Solución 1 subir el modelo a almacenamiento de objetos. Empaquetarlo en la imagen aumenta su tamaño a más de 20 GB en modelos mayores de 10 GB, ralentizando pulls e incluso provocando timeouts. Descargar el modelo al iniciar cada contenedor multiplica tiempos con varias réplicas y puede alargar actualizaciones rodantes a más de una hora, además de duplicar datos en el clúster de Kubernetes. Solución 2 alojar el modelo en NAS y montarlo en los pods. Problemas: sincronización manual entre regiones y proveedores, y rendimiento de carga pobre que dispara timeouts. Las cargas del modelo consumían tiempos similares en cada arranque.
Tras adoptar el mirror file system de JuiceFS, diseñaron una arquitectura con un sistema fuente y varios espejos por región. Al importar el modelo en el sistema fuente, los espejos se sincronizan automáticamente. Incluso si un espejo aún no concluyó la sincronización, el acceso hace read back del origen de forma transparente. Esto simplifica la gestión de extremo a extremo, aprovecha la caché local y acelera la carga de modelos, logrando aproximadamente tres veces el rendimiento de NAS tradicional.
Si te interesa profundizar, puedes unirte a las discusiones de JuiceFS en GitHub y a su comunidad en Slack.
Cómo puede ayudarte Q2BSTUDIO. En Q2BSTUDIO somos una empresa de desarrollo de software con foco en aplicaciones a medida y software a medida, especialistas en inteligencia artificial, ciberseguridad, servicios cloud AWS y Azure, servicios inteligencia de negocio y power bi, automatización de procesos, agentes IA e ia para empresas. Diseñamos arquitecturas multicloud resilientes, optimizamos pipelines de datos para entrenamiento e inferencia y reforzamos la seguridad extremo a extremo en cada fase del ciclo de vida del modelo.
Si tu organización quiere estandarizar datos de entrenamiento en varias nubes, reducir costes y acelerar el time to value con IA, habla con nuestro equipo. Podemos diseñar contigo una estrategia de ia para empresas que integre orquestación Kubernetes, cachés de alto rendimiento, MLOps y observabilidad, apoyándonos cuando conviene en servicios cloud líderes. Consulta nuestros servicios cloud AWS y Azure o descubre cómo aplicamos inteligencia artificial en casos de uso reales para impulsar tu ventaja competitiva.