Participación en Google AI Studio Multimodal Challenge
Narrador Digital es una miniaplicación multimodal que convierte una imagen estática en un relato breve y cautivador, narrado en audio. El usuario sube una imagen y, de forma opcional, añade un texto guía; la app interpreta ambos insumos y crea una historia original que después transforma en voz, ofreciendo una experiencia completa y envolvente.
Cómo funciona
La generación del relato se apoya en el modelo gemini-2.5-flash para comprender el contenido visual y el contexto del prompt, fusionarlos y producir un texto coherente y creativo. A continuación, el modelo gemini-2.5-flash-preview-tts convierte el texto en audio, listo para reproducirse en la propia aplicación.
Demo
Puedes ver una demostración en video aquí: ver demo en YouTube
Uso de Google AI Studio
La app se desarrolló en Google AI Studio consumiendo las APIs de los modelos Gemini para las tareas de visión, generación de texto y texto a voz. El prototipo se ejecuta en local y está preparado para desplegarse en Cloud Run, manteniendo una arquitectura ligera y escalable apta para producción.
Funciones multimodales
• Comprensión multimodal: combina una imagen y un prompt de texto con gemini-2.5-flash para producir un único relato coherente. • Generación multimodal: convierte la historia en audio con gemini-2.5-flash-preview-tts, creando una narración clara y expresiva.
Acerca de Q2BSTUDIO
En Q2BSTUDIO desarrollamos soluciones tecnológicas de alto impacto, desde aplicaciones a medida y software a medida hasta proyectos de inteligencia artificial aplicada. Ayudamos a empresas a potenciar su competitividad con ia para empresas, diseño de agentes IA, ciberseguridad avanzada, servicios cloud aws y azure, y servicios inteligencia de negocio con power bi. Si tu organización necesita una base sólida para innovar, podemos acompañarte en todo el ciclo, desde la ideación hasta el despliegue y la mejora continua.
Por qué elegirnos
• Especialistas en inteligencia artificial y agentes IA para automatizar tareas, enriquecer experiencias y extraer valor de datos. • Experiencia integral en ciberseguridad y gobierno del dato para proteger sistemas, identidades y aplicaciones. • Arquitecturas modernas en la nube con servicios cloud aws y azure para un escalado seguro y eficiente. • Analítica accionable y cuadros de mando con power bi para acelerar la toma de decisiones.
Recursos recomendados
• Conoce nuestras capacidades en IA y casos de uso reales aquí: inteligencia artificial. • Si buscas crear o evolucionar una solución específica para tu negocio, explora nuestro servicio de aplicaciones a medida y software a medida.
Conclusión
Narrador Digital muestra cómo la multimodalidad puede transformar una simple imagen en una experiencia narrativa completa. Si quieres llevar esta idea a tu sector, integrar agentes IA en tus procesos o construir una plataforma robusta en la nube, en Q2BSTUDIO estamos listos para ayudarte a dar el siguiente paso.