Recientemente inicié mi viaje en el desarrollo de IA con agencia buscando un proyecto atractivo para comenzar a aprender y experimentar. Tras décadas como desarrollador backend en Java, trabajar con soluciones agentic en Python y modelos LLM ha sido una bocanada de aire fresco. El ejemplo clásico de escenarios multiagente que escogí consiste en un agente dedicado a buscar en la web, otro que redacta un borrador de blog con esa información y un tercero que pule el resultado final. Aunque suene familiar, dominar estos pasos fundamentales es clave para abordar retos más complejos como memoria de contexto o sistemas con intervención humana.
Mi objetivo es documentar todo el proceso de aprendizaje para que otros puedan aprender de mis aciertos y errores. En mi caso personal ya había gestionado un blog en WordPress sobre fotografía, especialmente fotografía callejera espontánea. Tenía muchas ideas y estilos por explorar, desde un tono humorístico hasta un enfoque narrativo, y precisamente por eso decidí aplicar el proyecto al ámbito de posts sobre fotografía, sabiendo que la misma arquitectura puede adaptarse fácilmente a otros tipos de contenido.
En Q2BSTUDIO nos dedicamos al desarrollo de software y aplicaciones a medida, y ofrecemos especialización en inteligencia artificial, ciberseguridad y servicios cloud aws y azure. Para clientes que necesitan soluciones personalizadas contamos con experiencia en software a medida y en la integración de agentes IA para automatizar tareas complejas. Además apoyamos proyectos de inteligencia de negocio y power bi para mejorar la toma de decisiones corporativas.
Visión general del sistema: la aplicación automatiza búsquedas web sobre cualquier tema proporcionado, genera artículos completos usando esa información, permite personalizar el estilo de edición y crea imágenes relevantes que acompañan el texto. Los componentes principales incluyen un agente de investigación que usa búsqueda web en tiempo real, un agente redactor que genera el borrador y un agente editor que aplica el estilo final. Como herramientas auxiliares se integran un módulo de búsqueda web y un motor de generación de imágenes.
Para orquestar el flujo elegí LangGraph como columna vertebral de coordinación. Cada etapa research, write y edit se implementa como nodos alimentados por LLM, mientras que web_search e image_generation funcionan como nodos de herramienta. Las aristas entre nodos incluyen rutas condicionales que activan herramientas solo cuando el LLM solicita explícitamente llamadas a herramientas, lo que requiere funciones de enrutamiento que inspeccionan el mensaje devuelto por el modelo.
Arquitectura de agentes: cada agente usa una clase BaseLLM que centraliza inicialización del modelo, plantillas de prompt y métodos comunes para invocar la IA. Separé las plantillas de prompt en archivos dedicados para facilitar ajustes. El agente investigador recibe instrucciones estrictas para NO confiar en su conocimiento interno y OBLIGATORIAMENTE usar las herramientas de búsqueda web para obtener información actualizada. Esta insistencia en el prompt es vital para que el modelo utilice los recursos externos de forma fiable.
Vinculación de herramientas: las herramientas de búsqueda y de generación de imágenes se describen claramente y se enlazan a los LLM mediante un método bind_tools que adjunta las capacidades al modelo. Un detalle práctico fue descubrir que la llamada de enlace devuelve un objeto encadenable, por lo que conviene diseñar la API con fluidez. Para la búsqueda usé integraciones como TavilySearch que facilitan obtener resultados actuales y estructurados.
Generación de imágenes: desplegué un modelo DALL-E 3 en Azure para crear las ilustraciones del artículo, aunque reconozco preferencias personales por otros generadores. La herramienta de imagen recibe un prompt mejorado con instrucciones de estilo que dependen del tipo de edición elegido por el usuario, por ejemplo estilo documental fotorealista para crónicas críticas o ilustración de cuento para ediciones emocionales. El editor combina la revisión del texto con la instrucción para generar 1 o 2 imágenes relevantes que luego se insertan en el artículo en el formato requerido.
Estilos de edición: el editor cuenta con varias plantillas para reescribir el borrador según el estilo seleccionado, como General, Emocional, Hilarious o Critical. Cada estilo redefine tono, ritmo y pautas visuales para que el resultado final esté alineado con la voz deseada. Esta modularidad permite producir desde posts técnicos y profesionales hasta relatos emotivos o piezas humorísticas, siempre conservando la información clave obtenida por el investigador.
Manejo del estado y nodos: la clase BaseLLM implementa process_query y create_node para transformar entradas de estado en llamadas al LLM y extraer resultados a campos específicos como research_summary, article_draft o edited_article. El grafo de estado tipado define los campos esperados y la secuencia de ejecución. Las rutas condicionales entre nodos permiten retornar al agente llamante tras la ejecución de una herramienta y garantizan un flujo bidireccional entre agente y su herramienta asociada.
Compilación y visualización: una vez definidos nodos y aristas, el grafo se compila y queda disponible para el frontend. Para documentación y depuración se genera un diagrama Mermaid que ayuda a entender el flujo. En la siguiente entrega presentaré cómo todo esto se integra en una interfaz de usuario elegante que facilita a editores y creadores ejecutar el flujo de investigación, redacción, edición y generación de imágenes.
Si tu empresa necesita soluciones a medida o quiere explorar cómo agentes IA pueden automatizar procesos internos, en Q2BSTUDIO estamos listos para acompañarte. Puedes conocer nuestros servicios de inteligencia artificial y soluciones de IA para empresas en IA para empresas y descubrir cómo desarrollamos software a medida y aplicaciones a medida para proyectos complejos. Ofrecemos además consultoría en ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio y soluciones con power bi para transformar datos en decisiones estratégicas.
Este es solo el comienzo. En la Parte 2 mostraré la interfaz y cómo el flujo de LangGraph se expone al usuario final, incluyendo ejemplos y mejoras prácticas para prompts, gestión de herramientas y optimización de costes en servicios cloud. Si te interesa explorar aplicaciones a medida con agentes IA o necesitas asesoramiento en ciberseguridad y automatización, en Q2BSTUDIO podemos diseñar una solución adaptada a tus necesidades.