POLITICA DE COOKIES

Q2BSTUDIO.COM utiliza cookies técnicas, analíticas, de sesión y de publicidad con la finalidad de prestar un mejor servicio. No obstante, necesitamos su consentimiento explícito para poder utilizarlas. Así mismo puede cambiar la configuración de las cookies u obtener más información aquí .

Plantilla para el Desafío Google AI Studio

Asistente culinario visual: de una foto de tus ingredientes a recetas completas con IA multimodal

Publicado el 07/09/2025

Este artículo forma parte de una propuesta para el Google AI Studio Multimodal Challenge y describe cómo diseñé un asistente culinario visual que aprovecha modelos multimodales para convertir una foto de tus ingredientes en recetas completas, listas para cocinar.

Qué problema resuelve

Muchas personas miran su nevera o despensa y no saben qué preparar, lo que conduce a comidas repetitivas o desperdicio de alimentos. Las búsquedas tradicionales de recetas exigen escribir manualmente la lista de ingredientes, una tarea tediosa que además suele omitir productos disponibles. Con este asistente visual, basta con tomar una foto para obtener ideas útiles y variadas, reduciendo fricción y fomentando la creatividad en la cocina.

La experiencia que crea

Inspiración sin esfuerzo: haces una foto de tus ingredientes y el sistema sugiere recetas completas. Creatividad asistida por IA: el modelo gemini 2.5 flash identifica los alimentos en la imagen y genera recetas con cantidades, pasos, raciones y una estimación nutricional. Menos desperdicio: propone platos con lo que ya tienes para aprovecharlo antes de que caduque. Recetario personal: puedes guardar tus favoritas y construir un libro de cocina vivo y personalizado con tus platos preferidos y tus básicos de despensa.

Demo

Puedes ver una demostración en el siguiente video ver en YouTube

Cómo utilicé Google AI Studio

La solución se apoya en las capacidades multimodales de la API Gemini, la misma tecnología detrás de Google AI Studio. La clave es combinar imagen y texto en una única solicitud para que el modelo razone con ambos contextos a la vez. Entrada visual ImagePart: el usuario aporta una fotografía de sus ingredientes, que el modelo interpreta mediante reconocimiento de objetos para identificar elementos como tomates, cebollas, pasta o hierbas. Entrada textual TextPart: junto a la imagen se envía una instrucción clara para que el sistema proponga hasta tres recetas simples con nombre, lista de ingredientes con cantidades, instrucciones paso a paso, raciones y estimación nutricional incluyendo calorías, proteínas, carbohidratos y grasas.

Este diálogo entre lo visual y lo textual permite una tarea compleja: ver la imagen, inferir qué hay disponible y convertirlo en propuestas culinarias viables y bien estructuradas.

Salida estructurada con JSON Schema

Para que la aplicación sea robusta, se fuerza una salida estructurada en formato application json. Se define un responseSchema que exige un arreglo de objetos con propiedades concretas: recipeName cadena, ingredients arreglo de cadenas, instructions arreglo de cadenas, servingSize cadena, nutritionalInfo objeto con campos como calories, protein, carbs y fats. Con ello se elimina el parsing frágil de texto libre y se logra una integración directa entre la respuesta de la IA y la interfaz, que puede renderizar tarjetas de receta de forma consistente.

Funciones multimodales clave

Comprensión visual: a partir de una foto, el modelo identifica los ingredientes reales del usuario. Contexto instructivo: el prompt textual guía el rol de generador de recetas y el formato deseado. Salida JSON: la respuesta se ajusta a un esquema rígido, lo que se traduce en una UI limpia y fiable. Beneficios de experiencia: interacción intuitiva con solo una foto, relevancia práctica para resolver el dilema de qué cenar, reducción del desperdicio y presentación uniforme sin bloques de texto caóticos.

En resumen, el Asistente de Recetas Visual convierte la cámara del móvil en un aliado inteligente capaz de transformar un instante en un plan de comida personalizado y accionable.

Acerca de Q2BSTUDIO

En Q2BSTUDIO impulsamos proyectos de software a medida con un enfoque práctico en inteligencia artificial y experiencias multimodales. Diseñamos aplicaciones a medida y plataformas escalables, integramos agentes IA para automatización de decisiones, y articulamos soluciones de ia para empresas que conectan visión por computador, procesamiento de lenguaje y datos estructurados. Nuestro equipo combina ciberseguridad, servicios cloud aws y azure, y servicios inteligencia de negocio para convertir datos en valor real con analítica avanzada y power bi.

Si buscas un socio técnico para crear asistentes inteligentes, productos con modelos generativos o aplicaciones a medida, podemos ayudarte a pasar de la idea al producto con iteraciones rápidas, observabilidad y cumplimiento de seguridad. Descubre cómo aplicamos IA de forma responsable y orientada a negocio en nuestro área de servicios de inteligencia artificial o conoce cómo diseñamos aplicaciones y software a medida listos para producción y crecimiento.

Fin del artículo, inicio de la diversión
Construyendo software juntos

Dando vida a tus ideas desde 2008

Diseñamos aplicaciones móviles y de escritorio innovadoras que cumplen con tus requisitos específicos y mejoran la eficiencia operativa.
Más info
Cuéntanos tu visión
Sea cual sea el alcance, podemos convertir tu idea en realidad. Envíanosla y charlemos sobre tu proyecto o una colaboración futura.
Contáctanos
artículos destacados
Live Chat
Enviado correctamente.

Gracias por confiar en Q2BStudio