Preparándonos para AWS Machine Learning desde cero

Publicado el 22/12/2025

En términos prácticos, el ciclo de vida de un proyecto de machine learning se divide en tres fases claves: preparación de los datos, entrenamiento del modelo e implementación para inferencia. De estas fases, la preparación de los datos suele ser la más determinante porque la calidad de los datos de entrada condiciona directamente la calidad del modelo resultante.

La preparación de datos incluye tres actividades principales: obtención, limpieza y transformación. Si los datos de entrada son deficientes, el modelo será, como mínimo, cuestionable. En este artículo rehago y simplifico un flujo real y reproductible para preparar datos en AWS, con recomendaciones enfocadas tanto a profesionales que se preparan para el examen AWS Machine Learning Associate como a equipos técnicos que desarrollan soluciones de inteligencia artificial en entornos productivos.

Obtención de los datos. La selección del origen y del repositorio de almacenamiento depende del volumen, la frecuencia de actualización y los servicios que se usarán más adelante. Puedes trabajar con datos públicos o con datos internos de la organización. En AWS, S3 es el repositorio más usado para datos crudos por su flexibilidad y compatibilidad con el resto de servicios.

Limpieza de los datos. Es imprescindible revisar y limpiar antes de entrenar. Esto incluye eliminar filas con variables objetivo no válidas, imputar valores faltantes con criterios estadísticos, y eliminar columnas irrelevantes o peligrosas. Un aspecto crítico es la cardinalidad: columnas con demasiados valores únicos, como nombres de objetos, pueden inducir a overfitting. En muchos casos es preferible sustituir el nombre por atributos derivados relevantes, por ejemplo rareza o categoría.

Transformación de los datos. A menudo conviene reestructurar atributos: partir una columna compleja en varias, agrupar categorías, normalizar o escalar valores numéricos, y codificar variables categóricas con métodos adecuados según su cardinalidad. Para datos tabulares pequeños o medianos estas tareas se hacen rápidamente en entornos interactivos; para volúmenes grandes se requieren pipelines distribuidos.

Herramientas recomendadas en AWS. Desde diciembre de 2024 Amazon SageMaker pasó a llamarse Amazon SageMaker AI, plataforma gestionada para construir, entrenar y desplegar modelos, e integrada con servicios como Data Wrangler, SageMaker Canvas y Amazon EMR Serverless. Elegir la herramienta correcta depende del caso de uso:

Preparación visual y bajo código. SageMaker Canvas junto con Data Wrangler permite explorar, limpiar y transformar datos sin programar, ideal para datasets pequeños y equipos con poca experiencia en código.

Preparación con SQL y Python. SageMaker Studio soporta consultas SQL sobre fuentes como Athena, Redshift o S3 y manipulaciones en Python/Pandas, adecuado cuando se requiere control y flexibilidad pero los datos caben en memoria.

Preparación a gran escala. EMR Serverless integrado con Studio facilita transformaciones distribuidas con Spark para grandes volúmenes de datos sin gestionar clústeres manualmente.

Ejercicio práctico resumido. Para un laboratorio se usó un dataset CSV con información de tarjetas coleccionables: precio histórico, precio de mercado, rareza, nombre, código y otros atributos. Tras cargar el fichero en S3 se eligió SageMaker Data Wrangler para la exploración inicial por su interfaz visual y su capacidad de generar reportes automáticos de calidad de datos.

Exploración inicial con Data Wrangler. El Data Quality and Insights Report es una forma rápida de detectar problemas: tipos no numéricos en la variable objetivo, duplicados, asimetría y kurtosis que indican outliers. En el ejemplo se detectó que 71.9% de los valores del target no convertían a numérico y que existían valores extremos, algo común en mercados coleccionables donde pocas piezas concentran mucho valor.

Limpieza y transformaciones aplicadas. Primer paso fue corregir tipos: convertir columnas de precio a float y otras métricas a enteros. Se eliminaron registros sin target con Drop Missing y se imputaron valores en columnas clave con la media o estrategias más adecuadas. Columnas de alta cardinalidad como URL de imagen o nombre se mantuvieron únicamente para inspección y fueron descartadas antes del entrenamiento. Data Wrangler permite previsualizar cada transformación y ver el flujo de procesamiento completo.

Formato de salida y persistencia. Tras curar el dataset se exportó a Parquet al bucket de S3 con prefijo cu_ por ser eficiente para consultas analíticas y para minimizar el volumen escaneado en herramientas como Athena. En datasets pequeños no siempre es necesario aplicar compresión o particionado, pero en escenarios reales debemos evaluar particiones por fecha o por identificadores naturales para mejorar rendimiento y costes.

Catalogación con AWS Glue. Para consultar los datos con Athena se creó una base de datos en el Glue Data Catalog y se lanzó un Glue Crawler apuntando al prefijo de S3. El crawler infiere el esquema y registra tablas en el catálogo, lo que permite a Athena ejecutar consultas SQL estándar sin tener que definir manualmente el esquema. Glue desacopla el almacenamiento en S3 del análisis y facilita la gestión cuando los esquemas evolucionan.

Consulta con Amazon Athena. Con la tabla en el Data Catalog, Athena lee directamente los archivos Parquet en S3 usando los metadatos del catálogo. Esto posibilita análisis exploratorio y generación de métricas sin mover datos. Como recomendación de ahorro, usar Parquet reduce el volumen escaneado y por tanto reduce coste en Athena.

Consideraciones prácticas y trade-offs. Data Wrangler y Canvas democratizan la preparación de datos, pero existen decisiones de diseño que afectan flexibilidad y coste. Para equipos que manejan lógica compleja o grandes volúmenes, optar por Studio con SQL/Python o EMR Serverless es más apropiado. Siempre hay que balancear facilidad de uso frente a control, y automatización frente a trazabilidad.

Tips rápidos aplicables al examen y producción: verificar permisos IAM para acceso a S3 y Glue, convertir tipos antes de entrenar, revisar cardinalidad y outliers con criterios de dominio, persistir datos curados en Parquet y catalogarlos con Glue antes de consultar con Athena, y cerrar aplicaciones como SageMaker Canvas para evitar jobs activos y costes innecesarios.

Sobre Q2BSTUDIO. En Q2BSTUDIO somos especialistas en desarrollo de software a medida y aplicaciones a medida, con experiencia en proyectos de inteligencia artificial, ciberseguridad y servicios cloud. Diseñamos soluciones que combinan ingeniería de datos, modelos de machine learning y despliegue seguro en la nube. Si buscas apoyo en migración, arquitectura o ejecución de pipelines de datos en AWS o Azure revisa nuestros servicios cloud aws y azure y cómo los aplicamos en proyectos reales. También ofrecemos servicios de consultoría en inteligencia artificial y desarrollo de agentes IA para empresas, consulta nuestras capacidades en inteligencia artificial para empresas.

Palabras clave orientadas a posicionamiento. Este artículo integra términos relevantes como aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi para facilitar su visibilidad en búsquedas relacionadas con estos servicios.

Conclusión. Preparar datos es la fase que más impacto tiene en el éxito de un proyecto de machine learning. Dominar herramientas como SageMaker Data Wrangler, Glue y Athena, entender cuándo usar Canvas, Studio o EMR Serverless, y aplicar buenas prácticas de limpieza y transformación son habilidades esenciales para cualquier profesional de datos y también temas recurrentes en la certificación AWS Machine Learning Associate. Si necesitas apoyo para implementar estos procesos en tu organización, Q2BSTUDIO puede ayudarte a diseñar y ejecutar pipelines robustos y escalables, desde la ingesta en S3 hasta la inferencia en producción.

POLITICA DE COOKIES

Preparándonos para AWS Machine Learning desde cero – Preparando Datos

Preparación de datos para AWS Machine Learning

Dando vida a tus ideas desde 2008