Hoy presento Sushify, una herramienta open source para desarrolladores que facilita probar aplicaciones con integraciones LLM complejas al descubrir pronto los problemas relacionados con el prompt y todo el contexto que lo rodea herramientas, esquemas de salida, historial, plantillas, compresión de contexto y más. La idea es simple y potente: transformar tu ensalada de prompts en sushi de precisión ??.
Sigue siendo una versión temprana y busco comentarios y contribuciones de quienes quieran adoptarla cuanto antes.
Este artículo resume el camino desde la frustración inicial hasta publicar una utilidad que cualquiera puede usar.
El problema
En producción, muchas aplicaciones impulsadas por LLM expresan gran parte de su lógica en texto libre. Los prompts se arman con plantillas y fragmentos que se combinan en tiempo de ejecución, a veces con bucles y condiciones, y se comparten entre agentes o flujos. Además se suman herramientas con descripciones, parámetros documentados y fragmentos de prompt que mencionan formatos de entrada y salida, así como esquemas estructurados para validar resultados.
Un pequeño cambio, por ejemplo en el formato de salida de una herramienta, puede dejar referencias antiguas en algún lugar del prompt y provocar confusión en el modelo. Las instrucciones también pueden quedar vagas, demasiado restrictivas o incluso contradictorias, incluidas las contradicciones con tu yo del pasado. El resultado suele ser que el LLM ignora indicaciones o se comporta de forma impredecible, y la respuesta habitual es añadir más texto libre como parche, agravando el problema.
Primer instinto analisis estatico
Pensé en replicar lo que tenemos en código con linters y compiladores, pero para las entradas que enviamos al LLM. Quería soportar como mínimo Python y TypeScript y ofrecer mapeo a origen para localizar cada problema en su punto exacto. Intenté reconstruir el prompt completo siguiendo dependencias con un DAG desde la llamada al LLM. En proyectos reales no fue fiable: parte de los datos solo existen en tiempo de ejecución documentos recuperados por RAG, salidas de herramientas, resultados de APIs y componer prompts con ternarios o condiciones se volvía enrevesado. Además resultó caro y lento. Tras gastar bastante tiempo y dinero en gráficos de dependencia, asumí que no era el camino.
Segundo intento seguimiento en tiempo de ejecucion
La alternativa fue observar las llamadas al LLM en ejecución. Sin suposiciones ni mocks, el sistema ve exactamente lo que ve el modelo, y además captura las respuestas reales. Esto permite cruzar potenciales problemas de entrada con el comportamiento del modelo, incluyendo mensajes posteriores, historial, respuestas de herramientas y errores de compactación de contexto. Encajaba mejor, pero aún había que pulirlo.
Iteraciones
Primero creé un POC con un SDK que el proyecto monitorizado debía invocar, pasando el mismo payload que iba al LLM. La fricción fue alta y propensa a errores, y además limitaba casos como transformar esquemas de Zod. Quería algo plug and play. La solución fue un proxy que envuelve la app, intercepta las llamadas al LLM y captura peticiones y respuestas de forma fiable y transparente. Por supuesto, con soporte para Docker.
Sushify
Tras esas pruebas nació Sushify. Aun siendo minimalista, ya es muy útil. Me ayudó a destapar incidencias en proyectos que creía estables y hace el debug de problemas de prompt mucho mas directo. Aunque queda margen de mejora, muchos equipos pueden sacarle valor hoy mismo. Puedes ver la demo, capturas y guía de inicio en el repositorio de GitHub: Sushify en GitHub. Si te resulta interesante, me encantará tu feedback y un estrellita de apoyo.
Como encaja con Q2BSTUDIO
En Q2BSTUDIO, empresa de desarrollo de software y aplicaciones a medida, integramos y auditamos soluciones de inteligencia artificial para empresas con foco en calidad, gobernanza y seguridad. Nuestro equipo combina software a medida, ciberseguridad, servicios cloud AWS y Azure, agentes IA, servicios de inteligencia de negocio y power BI para diseñar productos robustos y escalables. Herramientas como Sushify nos ayudan a detectar inconsistencias en prompts, herramientas y esquemas antes de llegar a producción, acelerando ciclos de prueba y elevando la fiabilidad.
Si tu organización busca impulsar casos de uso de ia para empresas con garantías, podemos ayudarte con estrategia, arquitectura, puesta en marcha y observabilidad extremo a extremo. Conoce nuestras capacidades en inteligencia artificial o explora cómo abordamos el desarrollo de software y aplicaciones a medida para acelerar la entrega sin comprometer calidad y seguridad. También apoyamos iniciativas de ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio y cuadros de mando con power bi.
Te leo en comentarios con dudas, ideas o casos reales en los que Sushify pueda ayudarte a convertir tu caos de prompts en sushi de precisión.