El problema con los scrapers tradicionales es su fragilidad: se construyen sobre selectores CSS y estructura HTML que cambian con cada rediseño y con frecuencia dejan de funcionar cuando las clases se renombran o la interfaz se actualiza.
La solución que desarrollé evita leer el código y en su lugar hace que el scraper vea la página como lo haría una persona gracias a modelos multimodales como Gemini 1.5 Pro. En lugar de parsear HTML, capturamos una imagen de la página y preguntamos al modelo qué contiene.
La arquitectura básica que utilicé incluye n8n para la orquestación, un renderer como ScrapingBee o Puppeteer para generar una captura visual y Google Gemini 1.5 Pro para analizar la imagen. El flujo es sencillo: renderizar la página y obtener una imagen binaria, enviar esa imagen al modelo multimodal y pedirle de forma muy precisa que extraiga los campos que necesitamos en formato JSON válido.
Un ejemplo de lógica en n8n: 1 renderizar y tomar screenshot con ScrapingBee, 2 pasar la imagen al nodo de chat de Gemini, 3 usar un prompt que indique extraer título, precio y disponibilidad y devolver solo JSON sin formato adicional. Como el modelo interpreta los píxeles, detecta textos visibles como precios y estados aunque el HTML esté ofuscado.
Ventajas principales: mantenimiento casi nulo mientras el diseño visual se mantenga similar, resistencia a técnicas de ofuscación en el código y unicidad del flujo aplicable a Amazon, eBay o tiendas Shopify sin cambiar nodos. Inconvenientes: mayor latencia y coste por llamadas a API en comparación con el scraping basado en HTML. Por eso recomiendo un enfoque híbrido: intentar primero scraping clásico y si falla, activar el agente de visión como fallback.
En Q2BSTUDIO aplicamos estas soluciones dentro de proyectos de software a medida y aplicaciones a medida para clientes que necesitan extracción robusta de datos, automatización de procesos y agentes IA integrados en sus sistemas. Nuestro equipo combina experiencia en inteligencia artificial con servicios de ciberseguridad para garantizar que los pipelines de datos sean seguros y escalables.
Ofrecemos además despliegues y consultoría en servicios cloud aws y azure para hospedar flujos de trabajo de extracción y modelos, así como servicios de inteligencia de negocio y dashboards con power bi para transformar los datos extraídos en información accionable. Si quieres conocer nuestras capacidades en IA y cómo integrar agentes multimodales en tus procesos visita nuestra página de inteligencia artificial y para soluciones que automatizan flujos y procesos revisa nuestro servicio de desarrollo de aplicaciones y software a medida.
Si necesitas un sistema de scraping resistente, agentes IA para empresas, integraciones en la nube o auditoría de seguridad para tus pipelines de datos, en Q2BSTUDIO diseñamos e implementamos la solución completa: desde la captura visual y el análisis multimodal hasta la integración con BI y la protección mediante ciberseguridad y pentesting.
Resumen de recomendaciones prácticas: usar modelos multimodales para datos visuales críticos, mantener un fallback HTML para eficiencia, optimizar prompts para obtener JSON limpio y monitorizar costes de API. Con este enfoque conseguirás una extracción más robusta y adaptable para tus proyectos de software a medida e inteligencia de negocio.