Participación en el Google AI Studio Multimodal Challenge
Qué construí
Diseñé un applet llamado Notas de Video que transforma videos que subes, preferiblemente clases, conferencias o material formativo, en un paquete de conocimiento utilizable: genera la transcripción, crea una imagen relacionada con el contenido y produce varios resúmenes orientados a estudio con puntos clave, definiciones, preguntas de repaso y tareas accionables. El objetivo es convertir cualquier sesión en un material de referencia claro y listo para compartir.
Este proyecto lo desarrollé en solitario, desde la ideación hasta el despliegue.
Demo
Puedes explorar una versión temporalmente alojada en Google Cloud en el siguiente enlace seguro ver demo alojada y revisar la demostración en video aquí video de demostración.
Cómo utilicé Google AI Studio
El corazón del applet se apoya en Google AI Studio y el modelo Gemini Flash 2.5 para orquestar un flujo multimodal completo. El proceso incluye extracción de audio y transcripción, comprensión del contenido visual y textual, síntesis en diferentes estilos de resumen y generación de una imagen descriptiva representativa del video. Gracias a la capacidad multimodal, el sistema cruza pistas de audio, frames clave y metadatos para obtener contexto, identificar conceptos fundamentales, nombres propios y relaciones entre secciones. Además, se generan salidas estructuradas con secciones de notas, glosario, preguntas y acciones, optimizadas para facilitar estudio y seguimiento.
Funciones multimodales
El applet analiza video y audio para detectar temas, momentos relevantes y ejemplos importantes. Produce una transcripción legible con líneas de tiempo aproximadas, resúmenes en diferentes niveles de detalle, una lista de puntos clave y una imagen relacionada para la portada de la sesión. También etiqueta el contenido con categorías sugeridas, identifica referencias externas y propone recursos para ampliar el aprendizaje. Está pensado para usuarios que consumen clases, workshops, webinars y briefings internos, y sirve como base para conocimiento reutilizable y documentado.
De prototipo a solución empresarial con Q2BSTUDIO
En Q2BSTUDIO convertimos prototipos como Notas de Video en productos escalables y listos para producción. Integramos la solución con repositorios internos, LMS y CRM, aplicamos prácticas de ciberseguridad y cumplimiento, y desplegamos en servicios cloud aws y azure con observabilidad, control de costes y alta disponibilidad. Si tu organización busca potenciar la formación interna o documentar conocimiento experto, podemos crear aplicaciones a medida y software a medida que incorporen inteligencia artificial de forma segura, con pipelines de datos, paneles de control y automatización de procesos. Descubre cómo potenciamos proyectos de inteligencia artificial e ia para empresas en nuestra página de inteligencia artificial, y cómo diseñamos aplicaciones a medida y software a medida alineadas a tus objetivos.
Valor añadido y siguientes pasos
Extendemos estas capacidades con servicios inteligencia de negocio y paneles en power bi para seguir la adopción y el impacto, diseñamos agentes IA que asisten a los equipos en la toma de decisiones y reforzamos la ciberseguridad con auditorías y buenas prácticas de gestión del dato. Si necesitas escalar Notas de Video, integrarlo con tu stack de datos o habilitar single sign on y control de acceso, nuestro equipo puede acompañarte desde la arquitectura hasta la operación continua. Contáctanos y da el salto a soluciones impulsadas por inteligencia artificial, ciberseguridad, servicios cloud aws y azure y analítica accionable con power bi.