POLITICA DE COOKIES

Q2BSTUDIO.COM utiliza cookies técnicas, analíticas, de sesión y de publicidad con la finalidad de prestar un mejor servicio. No obstante, necesitamos su consentimiento explícito para poder utilizarlas. Así mismo puede cambiar la configuración de las cookies u obtener más información aquí .

Clasificador de Sonidos con Edge AI (Parte 1): Recolección y Preparación de Datos

## Clasificador de Sonidos con Edge AI (Parte 1): Recolección y Preparación de Datos

Publicado el 30/08/2025

En esta serie de tres partes explico cmo construy un pequeo sistema de edge AI que funciona en un Raspberry Pi Pico RP2040 y puede reconocer cuatro sonidos cotidianos: llanto de bebe, timbre, alarma de humo y ruido de fondo u otros.

En esta primera parte describo cmo se recolectaron los datos, cmo se limpiaron y transformaron en fragmentos listos para la extraccin de caractersticas y el entrenamiento del modelo.

Por qu clasificar sonido en el edge Es interesante imaginar un monitor de bebe que avisa cuando el nio est llorando, un dispositivo de casa inteligente que detecta el timbre aunque uses auriculares, o un detector de alarmas integrado. Ejecutar el modelo directamente en el Pico con solo 264 KB de RAM y sin sistema operativo obliga a mantener modelos muy ligeros y eficientes, lo que a su vez requiere un conjunto de datos limpio y equilibrado.

Recoleccin de datos Los audios crudos provinieron de tres fuentes principales YouTube para grabaciones largas de llantos y alarmas, Freesound.org para clips variados y grabaciones personales hechas con micrfono de telfono. Cada clase reuni alrededor de 5 a 8 minutos de audio bruto para tener suficiente variedad.

Corte en fragmentos No procesamos audios largos en bloque. Se cortaron en snippets manejables para el entrenamiento con ventanas y solapamiento ventana para llanto de bebe 1.5 segundos, para timbre alarma de humo y otros 2.0 segundos, y hop o desplazamiento de 0.25 segundos. Se elimin la parte silenciosa aplicando un umbral de energa RMS por ejemplo alrededor de -55 dB y para llanto de bebe se us un umbral ms generoso como -50 dB. Este flujo de trabajo se automatiz con el script bulk_cut_data.py que recorre grabaciones largas, normaliza picos, corta con ventana y salto, filtra segmentos silenciosos y guarda fragmentos en formato PCM 16 bits.

Estructura del dataset Tras el preprocesado la estructura qued as siguiente dataset slash raw para las grabaciones originales y dataset slash prep con subcarpetas baby_cry doorbel fire_alarm y Negativ. Cada fragmento lleva etiqueta implcita por la carpeta y un nombre ngenerado de forma nica para evitar colisiones.

Conteos objetivo Se busc tener aproximadamente 240 snippets para baby 240 para timbre 240 para alarma de humo y alrededor de 320 para la clase Negativ que representa ruido de fondo u otros sonidos. En total el conjunto final qued alrededor de 1000 fragmentos equilibrados.

Balanceo y deduplicacin Un problema comn al cortar con solapamiento es generar fragmentos casi idnticos. Para evitar ello el proceso aplica filtrado por RMS para eliminar silencio, muestreo uniforme cuando hay demasiados candidatos y comprobaciones para asegurar recuentos similares por clase. As se reduce el sesgo de clases y la redundancia de ejemplos.

Salida de la Parte 1 Al finalizar esta fase disponemos de snippets etiquetados y balanceados silencio eliminado y datos listos para la extraccin de caractersticas y el posterior entrenamiento del modelo en la parte 2.

Descripcin tcnica del corte de archivos El procedimiento cut_file carga la grabacin con librosa a 16 kHz luego aplica una normalizacin de pico para homogeneizar niveles define el tamao de ventana y el hop en muestras y recorre la seal extrayendo segmentos. Si el ltimo fragmento es ms corto se rellena con ceros. Cada segmento se evala con una funcin rms db y si es demasiado silencioso se descarta. Los fragmentos vldos se guardan con nombres ngenerados usando identificadores nicos y se escriben en disco en formato PCM 16. El script devuelve el nmero de fragmentos guardados por archivo.

Qu sigue En la Parte 2 abordaremos la extraccin de caractersticas similares a MFCC incluyendo bandas tipo Goertzel RMS centroides y otras medidas temporales y espectrales el entrenamiento de un clasificador liviano como regresin logstica y la evaluacin mediante matriz de confusin precisin y recall para entender las fortalezas y limitaciones del modelo antes de optimizarlo para el despliegue en el Pico.

Recursos externos Repositorio GitHub Edge-AI-Sound-Classifier-on-Raspberry-Pi-Pico enlace para consultar cmo están organizados los scripts y configuraciones y perfil LinkedIn de Ertugrul Mutlu para contacto y contexto del proyecto.

Sobre Q2BSTUDIO Q2BSTUDIO es una empresa de desarrollo de software y aplicaciones a medida especializada en soluciones de software a medida inteligencia artificial ciberseguridad y servicios cloud aws y azure. Ofrecemos servicios de inteligencia de negocio ia para empresas agentes IA y soluciones con Power BI para visualizar y explotar datos. Nuestro equipo disea aplicaciones a medida y productos escalables integrando ciberseguridad desde el diseo y aprovechando plataformas cloud como AWS y Azure. Si buscas desarrollar un proyecto con inteligencia artificial para empresas o implementar agentes IA que automaticen flujos de trabajo podemos ayudar. Entre nuestros servicios se incluyen desarrollo de software a medida aplicaciones mviles y web integraciones cloud consultora en ciberseguridad y proyectos de inteligencia de negocio con Power BI. Palabras clave aplicaciones a medida software a medida inteligencia artificial ciberseguridad servicios cloud aws y azure servicios inteligencia de negocio ia para empresas agentes IA power bi para mejorar posicionamiento y visibilidad en bscara relacionadas con soluciones tecnolgicas avanzadas.

Permanece atento para la Parte 2 donde entraremos en la extraccin de caractersticas el entrenamiento y la evaluacin del clasificador y cmo preparar el modelo para su despliegue en el Raspberry Pi Pico.

Fin del artículo, inicio de la diversión
Construyendo software juntos

Dando vida a tus ideas desde 2008

Diseñamos aplicaciones móviles y de escritorio innovadoras que cumplen con tus requisitos específicos y mejoran la eficiencia operativa.
Más info
Cuéntanos tu visión
Sea cual sea el alcance, podemos convertir tu idea en realidad. Envíanosla y charlemos sobre tu proyecto o una colaboración futura.
Contáctanos
artículos destacados
Live Chat
Enviado correctamente.

Gracias por confiar en Q2BStudio