Manual de Diseño y Práctica de Data Lake y Data Warehouse emergentes · Especificaciones de modelado y nomenclatura de modelos de lago y almacén de datos 2025 reúne cuatro guías progresivas. Con la línea maestra arquitectura de modelos - especificaciones comunes - especificaciones de capas - especificaciones de nombres, construye de forma sistemática un lakehouse moderno capaz de evolucionar, gobernarse y compartirse.
El primer artículo, Principios de Arquitectura de Modelos de Datos, propone una arquitectura por capas ODS - DW - APP con las subcapas DWD, DWM y DWS dentro de DW. Se apoya en cuatro principios esenciales: división por dominios temáticos, alta cohesión y bajo acoplamiento, hundimiento de la lógica común y equilibrio coste rendimiento. Esta base unificada y extensible sustenta el modelado dimensional en un entorno integrado de lago y almacén.
Las tres entregas siguientes aterrizan patrones de diseño comunes, especificaciones detalladas por capa y un sistema de nombres unificado, para guiar a las empresas desde la ingesta de datos en el lago hasta la materialización de valor con una metodología coherente. Muy pronto publicaremos la versión completa.
Guiar el rumbo durante una década: principios de arquitectura que mantienen a flote tu data lake y data warehouse
1. Cuántas capas son suficientes
Un almacén de datos excelente exige una estratificación clara que estabilice cada capa, proteja a los consumidores y evite cadenas de dependencia demasiado largas. No se trata de apilar capas por moda, sino de diseñar lo adecuado para cada contexto. La estratificación debe permitir soportar con rapidez el negocio actual, abstraer un marco común reutilizable, empoderar otras líneas y proporcionar datos estables y precisos que guíen incluso el desarrollo de nuevos productos mediante datos.
Una buena arquitectura por capas ofrece estructura clara, trazabilidad de linaje, reducción de diseños duplicados, relaciones organizadas y amortiguación frente a impactos del dato bruto. Las responsabilidades de cada capa deben definirse con precisión y adaptarse al negocio.
2. Vista panorámica de cuatro capas y siete etapas
El modelado del almacén se realiza en la capa contigua a la fuente, es decir, la capa DW. Esta es el núcleo de la construcción.
ODS · Capa de origen. Es la más cercana a la fuente. Se recomienda cargar el dato crudo sin limpiar en exceso para poder auditar y trazar incidencias. Procesos como desruido, deduplicación y tratamiento de atípicos se aplican en DWD.
DW · Capa de almacén. A partir de ODS se modelan datos por dominios. Se divide en DWD, DWM y DWS.
DWD · Detalle. Mantiene la granularidad de ODS pero aporta calidad: limpieza, integración y estandarización. Se normalizan estados y nombres, se eliminan inconsistencias y se aplican técnicas de degeneración de dimensiones para reducir uniones entre hechos y dimensiones. También puede realizarse una agregación ligera intra tema para mejorar disponibilidad.
DWM · Intermedia. Realiza agregaciones ligeras sobre DWD para producir tablas intermedias reutilizables que encapsulan indicadores comunes y evitan reprocesos. En la práctica, se agregan métricas sobre dimensiones clave y se conforman varios conjuntos intermedios que luego se combinan en tablas anchas DWS. En entornos donde la frontera entre tablas intermedias y anchas es difusa, puede omitirse DWM y resolver todo en DWS.
DWS · Servicio. Es la capa pública de resumen. Integra y consolida los datos de un dominio temático en tablas anchas, con granularidad algo más gruesa que el detalle. Debería cubrir cerca del 80 por ciento de los escenarios de consumo: consultas de negocio, análisis OLAP y distribución. Habitualmente hay menos tablas y cada una cubre más contenido.
APP · Capa de aplicación. Orientada a productos de datos y analítica. Puede servirse en motores online como ES, PostgreSQL o Redis, y también en plataformas analíticas como Hive o Druid. Informes recurrentes, cuadros de mando y data apps suelen materializarse aquí.
Capa de dimensiones. Cuando el volumen y variedad de dimensiones lo justifican, se separa una capa específica. Suele incluir dimensiones de alta cardinalidad como perfiles de usuario o de producto con decenas o cientos de millones de filas, y dimensiones de baja cardinalidad como catálogos, enumeraciones o calendario.
3. Principios de división por dominios temáticos
Por negocio o proceso: las funciones o líneas de producto y los procesos clave como pedido, pago y reembolso. Un proceso de negocio es un evento indivisible y sobre él se definen indicadores.
Por dominios de datos: conjuntos abstractos de procesos o dimensiones que organizan la analítica. Los dominios deben mantenerse vivos, refinados y estables en el tiempo, cubriendo lo actual y admitiendo nuevos negocios sin romper lo existente, ya sea encajando en dominios vigentes o creando otros nuevos.
4. Cinco reglas de oro del diseño del modelo
Alta cohesión y bajo acoplamiento: cohesión intradominio y acoplamiento mínimo entre dominios. El detalle se organiza por procesos, el resumen por entidad más actividad y la aplicación por necesidad de consumo.
Separación de modelo núcleo y extendido: el núcleo soporta el negocio común; lo extendido cubre necesidades específicas. Evitar que campos extendidos contaminen el núcleo para preservar simplicidad y mantenibilidad.
Hundimiento y singularidad de la lógica común: cuanto más transversal sea la lógica, más abajo debe encapsularse. No exponerla a capas superiores ni duplicarla.
Equilibrio coste rendimiento: cierta redundancia controlada acelera consultas y refrescos, evitando replicación excesiva.
Reprocesabilidad y capacidad de rollback: con la misma lógica, las ejecuciones en distintos momentos deben producir los mismos resultados, permitiendo recomputar y reconstruir particiones de forma fiable.
Cómo lo hacemos en Q2BSTUDIO
En Q2BSTUDIO implementamos esta arquitectura para acelerar la puesta en valor de los datos con software a medida y aplicaciones a medida que integran inteligencia artificial, ciberseguridad y automatización de extremo a extremo. Diseñamos dominios temáticos, modelado dimensional y pipelines confiables sobre servicios cloud aws y azure, y conectamos la capa DWS con analítica de negocio para activar decisiones con power bi. Si buscas elevar tu madurez analítica, descubre nuestros servicios de inteligencia de negocio con Power BI y cómo los alineamos con tus KPIs y gobierno de datos.
Nuestros equipos de ia para empresas combinan agentes IA con MLOps y marcos de feature stores para crear modelos reutilizables que viven cerca de DWD y DWS, garantizando calidad, linaje y seguridad desde el inicio. Para escalar de forma elástica y segura, te acompañamos con servicios cloud en AWS y Azure, reforzados por prácticas de ciberseguridad y pentesting. Así, tu lakehouse queda listo para crecer durante años, con costes controlados y tiempos de entrega cortos.
Resumen ejecutivo
Cuatro capas bien delimitadas, dominios estables, reglas claras de diseño y una nomenclatura coherente son la base para un lakehouse gobernable y compartible. DWD limpia y estandariza, DWM reutiliza y compone, DWS sintetiza para el 80 por ciento de los casos y APP entrega valor en productos y análisis. Con Q2BSTUDIO, además, activas casos de inteligencia artificial, agentes IA y reporting con power bi sin sacrificar la calidad del dato.
Próxima entrega: Especificaciones públicas de diseño del data warehouse.