Este contenido es una participación para el reto Google AI Studio Multimodal Challenge
Qué construí
Cree un juego llamado Guess My Drawing y hace exactamente lo que imaginas, salvo por un detalle divertido: la IA está mirando.
Así funciona:
Primero, Gemini genera 4 imágenes originales. Todas cuadradas y, en teoría, lo bastante simples como para dibujarlas. Eliges una y la dibujas en el lienzo con una sola línea. Tienes 10 segundos y el temporizador no perdona. Luego, Gemini intenta adivinar cuál elegiste y explica por qué.
Si acierta, tú sumas un punto. Si falla o no puede entender el boceto porque se acabó el tiempo o tu obra se convirtió en espagueti existencial, puntúa la IA.
Son 10 rondas tú contra el modelo. Cuando ya crees que lo dominas, se complica: cada 3 rondas los prompts se vuelven más abstractos y desafiantes. Si dibujar una banana te parece difícil, intenta un goblin ansioso en estilo barroco en un solo trazo.
Demo
Nota: el juego no está optimizado para móvil, se disfruta mejor en escritorio.
Juega en vivo: Guess My Drawing
Código fuente: Repositorio en GitHub
Grabé tres partidas rápidas: yo gano cuando la IA acierta, gana la IA cuando se equivoca en su elección, y hay veces en que la IA se rinde porque mi trazo fue más vanguardista de lo esperado.
Cómo utilicé Google AI Studio
Desarrollé todo el juego directamente en Google AI Studio, tanto la generación de imágenes como la lógica de análisis del boceto. Usé el editor integrado para diseñar prompts, gestionar respuestas y orquestar el flujo sin herramientas externas.
Al inicio de cada ronda, la app envía 4 prompts cortos al modelo gemini-2.5-flash-image-preview mediante generateContent. El modelo devuelve cuatro PNG en base64 que se muestran como opciones para el jugador.
Después, el boceto hecho con una única línea se convierte a base64 y se manda a Gemini con un prompt que le pide identificar cuál de las cuatro imágenes se parece más y explicar el motivo. El modelo responde con un índice estimado y una breve justificación que se muestran en pantalla.
Capacidades multimodales
Texto a imagen: el juego usa gemini-2.5-flash-image-preview para crear cuatro imágenes a partir de prompts breves y estructurados, retornadas como PNG en base64 y presentadas en una cuadrícula.
Imagen a texto: tras el trazo del jugador, el boceto se envía al modelo gemini-2.5-flash para que identifique la opción más cercana y explique su decisión.
Este bucle de prompt a imagen, de imagen a boceto y de boceto a conjetura de la IA crea un ritmo rápido e interactivo que hace que el juego se sienta vivo. No solo haces clic y esperas, intentas comunicarte con una sola línea. A veces te entiende al instante; otras interpreta tu obra maestra de una forma inesperada. Esa imprevisibilidad es parte de la diversión, se siente como una conversación, pero en dibujos.
¿Te apetece jugar? Ven a dibujar algo terrible. Prometo que Gemini apenas juzga.
Sobre Q2BSTUDIO
En Q2BSTUDIO somos una empresa de desarrollo de software especializada en aplicaciones a medida y software a medida, con enfoque en inteligencia artificial e ia para empresas, agentes IA, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio y power bi. Si quieres llevar ideas como Guess My Drawing a la realidad con modelos multimodales, pipelines de datos y una arquitectura lista para escalar, nuestro equipo puede ayudarte de principio a fin, desde el prototipo hasta la puesta en producción.
Si buscas crear un producto diferencial potenciando tu negocio con IA, descubre cómo lo hacemos en nuestra página de inteligencia artificial. Y si necesitas una app o plataforma única, optimizada para tu caso de uso, conoce nuestro servicio de desarrollo de aplicaciones y software a medida. Diseñamos soluciones seguras, escalables y listas para crecer.