POLITICA DE COOKIES

Q2BSTUDIO.COM utiliza cookies técnicas, analíticas, de sesión y de publicidad con la finalidad de prestar un mejor servicio. No obstante, necesitamos su consentimiento explícito para poder utilizarlas. Así mismo puede cambiar la configuración de las cookies u obtener más información aquí .

Narrador Digital: Miniaplicación Multimodal

Narrador Digital: de una imagen a un relato sonoro con Gemini y Google AI Studio

Publicado el 07/09/2025

Participación en Google AI Studio Multimodal Challenge

Narrador Digital es una miniaplicación multimodal que convierte una imagen estática en un relato breve y cautivador, narrado en audio. El usuario sube una imagen y, de forma opcional, añade un texto guía; la app interpreta ambos insumos y crea una historia original que después transforma en voz, ofreciendo una experiencia completa y envolvente.

Cómo funciona

La generación del relato se apoya en el modelo gemini-2.5-flash para comprender el contenido visual y el contexto del prompt, fusionarlos y producir un texto coherente y creativo. A continuación, el modelo gemini-2.5-flash-preview-tts convierte el texto en audio, listo para reproducirse en la propia aplicación.

Demo

Puedes ver una demostración en video aquí: ver demo en YouTube

Uso de Google AI Studio

La app se desarrolló en Google AI Studio consumiendo las APIs de los modelos Gemini para las tareas de visión, generación de texto y texto a voz. El prototipo se ejecuta en local y está preparado para desplegarse en Cloud Run, manteniendo una arquitectura ligera y escalable apta para producción.

Funciones multimodales

• Comprensión multimodal: combina una imagen y un prompt de texto con gemini-2.5-flash para producir un único relato coherente. • Generación multimodal: convierte la historia en audio con gemini-2.5-flash-preview-tts, creando una narración clara y expresiva.

Acerca de Q2BSTUDIO

En Q2BSTUDIO desarrollamos soluciones tecnológicas de alto impacto, desde aplicaciones a medida y software a medida hasta proyectos de inteligencia artificial aplicada. Ayudamos a empresas a potenciar su competitividad con ia para empresas, diseño de agentes IA, ciberseguridad avanzada, servicios cloud aws y azure, y servicios inteligencia de negocio con power bi. Si tu organización necesita una base sólida para innovar, podemos acompañarte en todo el ciclo, desde la ideación hasta el despliegue y la mejora continua.

Por qué elegirnos

• Especialistas en inteligencia artificial y agentes IA para automatizar tareas, enriquecer experiencias y extraer valor de datos. • Experiencia integral en ciberseguridad y gobierno del dato para proteger sistemas, identidades y aplicaciones. • Arquitecturas modernas en la nube con servicios cloud aws y azure para un escalado seguro y eficiente. • Analítica accionable y cuadros de mando con power bi para acelerar la toma de decisiones.

Recursos recomendados

• Conoce nuestras capacidades en IA y casos de uso reales aquí: inteligencia artificial. • Si buscas crear o evolucionar una solución específica para tu negocio, explora nuestro servicio de aplicaciones a medida y software a medida.

Conclusión

Narrador Digital muestra cómo la multimodalidad puede transformar una simple imagen en una experiencia narrativa completa. Si quieres llevar esta idea a tu sector, integrar agentes IA en tus procesos o construir una plataforma robusta en la nube, en Q2BSTUDIO estamos listos para ayudarte a dar el siguiente paso.

Fin del artículo, inicio de la diversión
Construyendo software juntos

Dando vida a tus ideas desde 2008

Diseñamos aplicaciones móviles y de escritorio innovadoras que cumplen con tus requisitos específicos y mejoran la eficiencia operativa.
Más info
Cuéntanos tu visión
Sea cual sea el alcance, podemos convertir tu idea en realidad. Envíanosla y charlemos sobre tu proyecto o una colaboración futura.
Contáctanos
artículos destacados
Live Chat
Enviado correctamente.

Gracias por confiar en Q2BStudio