Plantilla para el Desafío Google AI Studio

Este artículo forma parte de una propuesta para el Google AI Studio Multimodal Challenge y describe cómo diseñé un asistente culinario visual que aprovecha modelos multimodales para convertir una foto de tus ingredientes en recetas completas, listas para cocinar.

Qué problema resuelve

Muchas personas miran su nevera o despensa y no saben qué preparar, lo que conduce a comidas repetitivas o desperdicio de alimentos. Las búsquedas tradicionales de recetas exigen escribir manualmente la lista de ingredientes, una tarea tediosa que además suele omitir productos disponibles. Con este asistente visual, basta con tomar una foto para obtener ideas útiles y variadas, reduciendo fricción y fomentando la creatividad en la cocina.

La experiencia que crea

Inspiración sin esfuerzo: haces una foto de tus ingredientes y el sistema sugiere recetas completas. Creatividad asistida por IA: el modelo gemini 2.5 flash identifica los alimentos en la imagen y genera recetas con cantidades, pasos, raciones y una estimación nutricional. Menos desperdicio: propone platos con lo que ya tienes para aprovecharlo antes de que caduque. Recetario personal: puedes guardar tus favoritas y construir un libro de cocina vivo y personalizado con tus platos preferidos y tus básicos de despensa.

Demo

Puedes ver una demostración en el siguiente video ver en YouTube

Cómo utilicé Google AI Studio

La solución se apoya en las capacidades multimodales de la API Gemini, la misma tecnología detrás de Google AI Studio. La clave es combinar imagen y texto en una única solicitud para que el modelo razone con ambos contextos a la vez. Entrada visual ImagePart: el usuario aporta una fotografía de sus ingredientes, que el modelo interpreta mediante reconocimiento de objetos para identificar elementos como tomates, cebollas, pasta o hierbas. Entrada textual TextPart: junto a la imagen se envía una instrucción clara para que el sistema proponga hasta tres recetas simples con nombre, lista de ingredientes con cantidades, instrucciones paso a paso, raciones y estimación nutricional incluyendo calorías, proteínas, carbohidratos y grasas.

Este diálogo entre lo visual y lo textual permite una tarea compleja: ver la imagen, inferir qué hay disponible y convertirlo en propuestas culinarias viables y bien estructuradas.

Salida estructurada con JSON Schema

Para que la aplicación sea robusta, se fuerza una salida estructurada en formato application json. Se define un responseSchema que exige un arreglo de objetos con propiedades concretas: recipeName cadena, ingredients arreglo de cadenas, instructions arreglo de cadenas, servingSize cadena, nutritionalInfo objeto con campos como calories, protein, carbs y fats. Con ello se elimina el parsing frágil de texto libre y se logra una integración directa entre la respuesta de la IA y la interfaz, que puede renderizar tarjetas de receta de forma consistente.

Funciones multimodales clave

Comprensión visual: a partir de una foto, el modelo identifica los ingredientes reales del usuario. Contexto instructivo: el prompt textual guía el rol de generador de recetas y el formato deseado. Salida JSON: la respuesta se ajusta a un esquema rígido, lo que se traduce en una UI limpia y fiable. Beneficios de experiencia: interacción intuitiva con solo una foto, relevancia práctica para resolver el dilema de qué cenar, reducción del desperdicio y presentación uniforme sin bloques de texto caóticos.

En resumen, el Asistente de Recetas Visual convierte la cámara del móvil en un aliado inteligente capaz de transformar un instante en un plan de comida personalizado y accionable.

Acerca de Q2BSTUDIO

En Q2BSTUDIO impulsamos proyectos de software a medida con un enfoque práctico en inteligencia artificial y experiencias multimodales. Diseñamos aplicaciones a medida y plataformas escalables, integramos agentes IA para automatización de decisiones, y articulamos soluciones de ia para empresas que conectan visión por computador, procesamiento de lenguaje y datos estructurados. Nuestro equipo combina ciberseguridad, servicios cloud aws y azure, y servicios inteligencia de negocio para convertir datos en valor real con analítica avanzada y power bi.

Si buscas un socio técnico para crear asistentes inteligentes, productos con modelos generativos o aplicaciones a medida, podemos ayudarte a pasar de la idea al producto con iteraciones rápidas, observabilidad y cumplimiento de seguridad. Descubre cómo aplicamos IA de forma responsable y orientada a negocio en nuestro área de servicios de inteligencia artificial o conoce cómo diseñamos aplicaciones y software a medida listos para producción y crecimiento.

Plantilla para el Desafío Google AI Studio

Juega un momento antes de irte

Cómo podemos ayudarte

Inteligencia artificial

Desarrollo de software

Servicios cloud

Ciberseguridad y pentesting

Business Intelligence

Automatización de procesos

Formación para empresas

Auditoría de código

Generación de imágenes con IA

Generación de vídeos con IA

Avatares conversacionales con IA

Marketing Online e IA

¿Tienes un proyecto en mente?

Plantilla para el Desafío Google AI Studio

Juega un momento antes de irte

Cómo podemos ayudarte

Inteligencia artificial

Desarrollo de software

Servicios cloud

Ciberseguridad y pentesting

Business Intelligence

Automatización de procesos

Formación para empresas

Auditoría de código

Generación de imágenes con IA

Generación de vídeos con IA

Avatares conversacionales con IA

Marketing Online e IA

Artículos relacionados

Top 15 Compañías para la automatización de generación de informes de IA en Madrid

La guía definitiva para encontrar aplicaciones personalizadas para el control de proyectos en A Coruña

Top 10 Expertos en desarrollo de software de gestión de casos en Málaga

Top 10 empresas para el desarrollo de software de gestión de casos en Málaga

¿Tienes un proyecto en mente?