Participación para el reto Google AI Studio Multimodal Challenge
Lo que construí
El problema que resuelve: muchas personas miran a diario sus ingredientes en la nevera o la despensa y no se sienten inspiradas o no saben qué preparar. Esto provoca desperdicio de comida o menús repetitivos. Las búsquedas de recetas tradicionales exigen teclear manualmente los ingredientes, una tarea tediosa que además no siempre refleja todo lo que hay disponible.
La experiencia que crea: el Asistente Visual de Recetas ofrece una experiencia fluida e intuitiva para combatir este problema. Inspiración sin esfuerzo: en lugar de escribir, haces una foto de tus ingredientes y la app te devuelve al instante recetas completas listas para cocinar, eliminando fricción y haciendo la cocina más espontánea y divertida. Creatividad culinaria con IA: el applet demuestra la potencia de la comprensión multimodal de la API Gemini, identificando inteligentemente los alimentos de la imagen y generando recetas creativas y pertinentes con instrucciones, raciones e incluso información nutricional estimada. Menos desperdicio: al sugerir recetas basadas en lo que realmente tienes, te anima a usar los ingredientes antes de que se estropeen y promueve una cocina más sostenible. Recetario digital personal: puedes guardar tus recetas favoritas generadas para crear un recetario en constante crecimiento. La función Recetas guardadas permite volver fácilmente a los platos que te gustaron y construir una colección adaptada a tus gustos y básicos de despensa.
En esencia, el Asistente Visual de Recetas convierte la cámara de tu móvil en un socio culinario inteligente, facilitando el descubrimiento de platos, reduciendo el desperdicio y potenciando tu creatividad en la cocina.
Demo
Explora una captura de la app aquí: ver captura. Mira la demostración en video: demo en YouTube
Cómo utilicé Google AI Studio
Esta aplicación es un ejemplo claro de cómo aprovechar las potentes capacidades multimodales de la API Gemini de Google, la misma tecnología que impulsa Google AI Studio. A continuación, un resumen de la implementación.
Capacidad multimodal central, fusión de imagen y texto: la función clave es comprender y razonar a partir de dos entradas simultáneas, imagen y prompt de texto, un punto fuerte de los modelos Gemini. Entrada de imagen ImagePart: el usuario aporta una fotografía de sus ingredientes, el contexto visual. El modelo gemini-2.5-flash no solo ve píxeles, realiza reconocimiento de objetos para identificar elementos como tomates, cebollas, pasta y hierbas, respondiendo a la pregunta qué tengo. Entrada de texto TextPart: la imagen por sí sola no basta. Se combina con un prompt cuidadosamente diseñado. Prompt base: basado en los ingredientes de esta imagen, sugiere hasta 3 recetas simples; para cada receta proporciona nombre, lista de ingredientes con cantidades, instrucciones paso a paso, tamaño de la porción e información nutricional estimada calorías, proteínas, carbohidratos y grasas. Este prompt guía al modelo sobre qué hacer con la información, le pide actuar como chef creativo y estructurar la respuesta de forma específica. La sinergia de ambas modalidades permite una tarea compleja, observar la imagen, identificar ingredientes y usar esa lista como base para una generación creativa de texto definida por el prompt.
Aprovechar una función avanzada de AI Studio, salida estructurada JSON Schema: un reto habitual con modelos de lenguaje es lograr una salida con formato consistente y utilizable. Un bloque de texto plano obligaría a un parseo frágil. Para resolverlo, se usa salida estructurada en la API Gemini, configurable también en AI Studio. responseMimeType application/json indica que se espera una cadena JSON válida. responseSchema es la pieza crítica, se define un esquema JSON detallado con la estructura exacta de los datos. La salida es un ARRAY de OBJECT donde cada objeto contiene recipeName STRING, ingredients ARRAY de STRING, instructions ARRAY de STRING, servingSize STRING y nutritionalInfo OBJECT con propiedades para calories, protein, carbohydrates y fats. Al definir este esquema, el modelo organiza su respuesta creativa en un formato predecible y legible por máquina, eliminando parseo manual y facilitando una integración fluida y robusta entre la respuesta de la IA y la interfaz de usuario. La aplicación toma el JSON, lo analiza y renderiza las tarjetas de receta de forma directa. En resumen, el applet usa entrada multimodal imagen y texto para comprender el contexto real del usuario y salida estructurada JSON schema para transformar la creatividad de la IA en datos fiables que alimentan una experiencia dinámica y amigable.
Funcionalidades multimodales
La funcionalidad multimodal específica construida es el núcleo de la aplicación: fusiona la entrada visual fotografía de ingredientes con un prompt de texto detallado para generar datos JSON estructurados recetas. Esta combinación potencia de forma notable la experiencia del usuario.
Comprensión visual entrada de imagen: el usuario proporciona una foto de sus ingredientes disponibles. El modelo gemini-2.5-flash emplea visión por computador sofisticada para identificar los alimentos de la imagen con precisión, no ve solo una foto, entiende que hay tomates, una cebolla y una caja de pasta, aportando contexto factual del mundo real. Contexto instructivo entrada de texto: la intención se aporta con un prompt enviado junto a la imagen. El prompt indica al modelo que actúe como generador de recetas y especifica la salida deseada, sugerir hasta 3 recetas simples con nombre, ingredientes con cantidades, pasos, raciones e información nutricional estimada. Salida estructurada JSON: se fuerza la respuesta del modelo al modo application/json. Mediante un responseSchema, el texto creativo y los datos numéricos se organizan en un formato limpio y predecible que la aplicación puede parsear y convertir de inmediato en componentes de interfaz.
Por qué mejora la experiencia: interacción intuitiva y sin esfuerzo al reducir la necesidad de teclear, resolución de un problema real partiendo del inventario del usuario y ayuda a reducir el desperdicio, además de una interfaz pulida que evita el parseo de texto desordenado y muestra recetas limpias, consistentes y fáciles de leer. En esencia, este enfoque multimodal convierte la cámara del móvil en un potente asistente culinario que transforma una instantánea de la encimera en un plan de comidas personalizado y accionable.