Introducción: la inteligencia artificial generativa ha mejorado tanto que distinguir entre audio real y audio sintético se ha vuelto complejo. En este artículo explicamos paso a paso cómo crear un detector de deepfakes de audio para Chrome que escucha unos segundos de audio de la pestaña activa, lo envía a la API de detección de Aurigin y muestra un veredicto con su nivel de confianza.
Resumen del proyecto: construiremos una extensión para Chrome con manifest v3 que capture audio de la pestaña, grabe entre 5 y 10 segundos con MediaRecorder, convierta la grabación a WAV en el navegador, suba el fichero al endpoint de Aurigin y muestre el resultado en un popup limpio y sencillo.
Estructura básica: incluye un archivo manifest.json con permisos tabCapture y host permissions para la API, un popup.html con botón Analizar audio y áreas para estado y resultado, un popup.css con estilos modernos y un popup.js con la lógica de captura, grabación, conversión y llamada a la API.
Captura de audio: tras el clic del usuario usamos chrome.tabCapture.capture con audio true para obtener un MediaStream de la pestaña. Para evitar que la pestaña deje de reproducir audio al capturar, creamos un AudioContext y conectamos la fuente al destino para reenviar el audio a los altavoces mientras grabamos.
Grabación: empleamos MediaRecorder sobre el stream y recopilamos los fragmentos ondataavailable. Grabamos por ejemplo 5 segundos y en onstop combinamos los fragmentos en un Blob. A continuación convertimos ese Blob comprimido a WAV PCM 16 bit decodificando con AudioContext.decodeAudioData y generando manualmente la cabecera WAV e intercalando las muestras.
Conversión a WAV en el navegador: decodificar el blob a AudioBuffer permite extraer número de canales, frecuencia de muestreo y muestras por canal. Con esos datos se construye un ArrayBuffer con cabecera RIFF WAVE y datos PCM en little endian, generando finalmente un Blob tipo audio/wav listo para subir.
Envío a la API de detección: enviamos el WAV a POST https://aurigin.ai/api-ext/predict como multipart form data en el campo file e incluimos la clave x-api-key en las cabeceras. La respuesta JSON incluye predicciones por tramo de 5 segundos y probabilidades globales que hay que interpretar para calcular un porcentaje de confianza y una etiqueta final fake o real.
Interpretación de resultados: comprobamos errores en el array error, validamos las matrices predictions y global_probability, calculamos una probabilidad media y determinamos si algún segmento ha sido marcado como fake. Si existe al menos un segmento fake mostramos alerta y un porcentaje de confianza; si todos los segmentos son real mostramos veredicto positivo con su confianza. Es recomendable mostrar por segmento la etiqueta y el nivel de confianza para transparencia.
UI y experiencia de usuario: el popup debe deshabilitar el botón mientras se captura y procesa, mostrar mensajes claros como Capturando audio, Procesando audio y Analizando con IA, y presentar un resultado con coloración visible para fake o real y una barra de confianza. También conviene ofrecer feedback en caso de fallos de captura o de la API.
Buenas prácticas: avisar al usuario de que la API analiza fragmentos de 5 segundos, gestionar el cierre y la liberación de recursos MediaStream y AudioContext, manejar errores de red y de permisos, y permitir reintentos desde la interfaz. Para producción considerar límites de tasa de la API y manejo seguro de la clave, por ejemplo a través de un backend si es necesario.
Pruebas y despliegue: para probar cargar la extensión en chrome://extensions con modo desarrollador Load unpacked, reproducir audio en una pestaña, abrir el popup y clicar Analizar audio. Verifique que el audio se mantiene audible, que se graba el fragmento y que la respuesta de Aurigin se muestra correctamente.
Sobre Q2BSTUDIO: en Q2BSTUDIO somos una empresa de desarrollo de software y aplicaciones a medida especializada en inteligencia artificial, ciberseguridad y servicios cloud. Ofrecemos soluciones a medida para empresas que necesitan integrar modelos de IA en sus flujos, desarrollar software a medida o proteger sus activos digitales con pruebas de penetración y auditorías. Si busca potenciar sus proyectos con soluciones de inteligencia artificial para empresas puede visitar nuestra página de inteligencia artificial y si le interesa reforzar la seguridad o realizar pentesting acceda a nuestros servicios de ciberseguridad.
Servicios y posicionamiento: Q2BSTUDIO brinda desarrollo de aplicaciones a medida, software a medida, IA aplicada, ciberseguridad, servicios cloud aws y azure, inteligencia de negocio y Power BI, automatización de procesos y agentes IA para empresas. Estas capacidades nos permiten crear integraciones seguras y escalables que combinan detección de deepfakes, analítica avanzada y despliegue en la nube.
Casos de uso y valor empresarial: un detector de deepfakes en el navegador es útil para periodistas, equipos de compliance, centros de atención y plataformas que moderan contenido. Combinado con pipelines de datos en la nube y paneles Power BI se pueden llevar registros de eventos, métricas de confianza y alertas automatizadas para auditoría y respuesta rápida.
Conclusión: con unas pocas decenas de líneas de código y aprovechando APIs especializadas se puede construir una extensión que ayude a identificar audio sintético en tiempo real. Este tipo de soluciones combinan experiencia en desarrollo de software a medida, inteligencia artificial y buenas prácticas de ciberseguridad, áreas en las que Q2BSTUDIO ofrece servicios integrales para llevar la idea desde el prototipo hasta la producción en AWS o Azure.
Contacte con nosotros para diseñar su detector personalizado, integrar análisis en la nube o desplegar paneles de inteligencia de negocio que interpretan los resultados y automatizan la respuesta a incidentes.