Intro
En mi artículo anterior sobre promptfoo explicamos lo básico para probar prompts de LLM con ejemplos simples. Pero cuando construyes una aplicación real que procesa contenido generado por usuarios a escala, descubres que ese prompt tan cuidado debe lidiar con mucha más complejidad de la prevista. Por eso es vital pasar del examen intuitivo al establecimiento de una evaluación sistemática y automatizada que permita pruebas de regresión repetibles y confiables.
Nuestro encargo
Imagina que colaboras con un gran ecommerce y tu equipo construye una funcionalidad que analiza reseñas de productos enviadas por usuarios. La aplicación debe evaluar las reseñas, clasificar el sentimiento, extraer las características clave mencionadas, detectar posibles reseñas falsas y recomendar decisiones de moderación. Con ello, los clientes encuentran reseñas confiables y el negocio mantiene la calidad del contenido.
El núcleo del sistema es un prompt que recibe cada reseña y devuelve datos estructurados como clasificación de sentimiento, puntuación de confianza, características extraídas, indicadores de posible fraude y una recomendación de moderación. En desarrollo puede funcionar de maravilla, pero en producción debe manejar la realidad desordenada de las reseñas: sentimientos mixtos, sarcasmo, lenguaje inapropiado, menciones a competidores y señales de reseñas falsas.
Nuestros requisitos
Antes de construir el prompt y las pruebas con promptfoo conviene definir requisitos claros con un lenguaje entendible por todo el equipo. Podemos describir escenarios como reseñas positivas, negativas, mixtas y sospechosas. Para cada una esperamos una clasificación de sentimiento coherente, la presencia o ausencia de indicadores de fraude, una recomendación de moderación adecuada y la extracción de rasgos clave del producto. Este marco de trabajo orienta tanto el diseño del prompt como la batería de pruebas.
Más allá del YAML en línea y organización por archivos
En lugar de incrustar todo en un único YAML, conviene separar los prompts y los datos de prueba en archivos. Así es más fácil mantener, versionar y colaborar. Una estructura típica incluye una carpeta de prompts con el texto del prompt de análisis y otra con reseñas de ejemplo positivas, negativas, mixtas y sospechosas. El archivo de especificación referencia esos recursos y define las aserciones de validación.
Creación del prompt de análisis
Diseña un prompt específico para reseñas de ecommerce que pida una salida en formato JSON estructurado. Incluye campos como sentiment con valores positivo, negativo o mixto, confidence con rango de 0 a 1, listas de características, elogios y quejas principales, un booleano para detectar sospecha de fraude, una lista de indicadores que justifiquen esa sospecha y una recomendación de moderación que permita aprobar, marcar para revisión o rechazar. Insiste en que solo se devuelva JSON válido sin envoltorios ni explicaciones, y destaca reglas como identificar bien los matices del sentimiento, extraer rasgos concretos y reconocer señales de lenguaje genérico y superlativos extremos.
Escenarios realistas de prueba
Prepara cuatro reseñas representativas. Un positivo genuino con detalles específicos como duración de batería, calidad de sonido y comodidad. Un negativo detallado con problemas de conexión, batería por debajo de lo prometido y controles táctiles imprecisos. Un mixto con buenas prestaciones de audio y construcción pero cortes de conexión y mal ajuste. Y una reseña sospechosa con elogios genéricos, superlativos constantes y ausencia de detalles verificables. Estos textos alimentan el prompt y sirven de base para las aserciones.
Configuración de pruebas completa
En la especificación de promptfoo define el prompt, el proveedor del modelo y cuatro pruebas, una por escenario. Añade aserciones que verifiquen que la salida es JSON válido, que existen pares clave esperados y que la lógica de negocio se cumple. Puedes usar validaciones con javascript para comprobar que el sentimiento coincide con lo esperado y que la confianza supera un umbral. Complementa con una rúbrica evaluada por LLM que juzgue si se identifican rasgos clave y si se justifican los indicadores de fraude. Esta combinación de comprobaciones estructurales, lógicas y semánticas eleva mucho la robustez.
Qué valida cada prueba
En la reseña positiva genuina la salida debe clasificar como positiva, con confianza alta, sin sospecha de fraude, y extraer rasgos como batería, sonido y comodidad. En la negativa debe clasificar como negativa, listar las quejas clave y no marcar fraude porque aporta detalles concretos. En la mixta debe reconocer el equilibrio entre pros y contras. En la sospechosa debe marcar sospecha y aportar indicadores claros como lenguaje genérico, ausencia de detalles y superlativos desmedidos.
Instalación y ejecución
Instala promptfoo como dependencia de desarrollo con npm install --save-dev promptfoo. Ejecuta las pruebas con npx promptfoo eval -c ruta-al-archivo --no-cache y visualiza los resultados con npx promptfoo view -y. El visor muestra una cuadrícula con el prompt, las entradas, la salida del modelo y el resultado de cada aserción, lo que facilita detectar desviaciones y oportunidades de mejora.
Interpretación de resultados
Además del estado de aprobado o fallido, el visor permite inspeccionar la respuesta completa, revisar la puntuación de confianza, ver qué aserciones pasaron o fallaron y comparar ejecuciones entre modelos o versiones de prompt. Esto aporta señales útiles para iterar, como falsos positivos en fraude o extracciones de rasgos incompletas.
Integración continua
El gran valor aparece al llevar estas pruebas a la integración continua. Al ser una herramienta de línea de comandos puedes ejecutar la batería en cada cambio de prompt, actualización de proveedor o ajuste de umbrales. Si las salidas cambian, investigas de inmediato. Así conviertes la evolución del sistema en un proceso controlado, con regresiones detectadas a tiempo y trazabilidad de decisiones.
Buenas prácticas
Amplía la variedad de datos con casos límite, lenguaje coloquial, sarcasmo y reseñas que mencionan competidores. Ajusta los umbrales de confianza según la tolerancia al riesgo de la plataforma y separa los escenarios por categoría para obtener métricas por tipo de reseña. Documenta por qué una aserción existe y qué riesgo cubre. Revisa periódicamente las rúbricas y conserva ejemplos de fallos frecuentes para evitar reintroducirlos.
Cómo puede ayudarte Q2BSTUDIO
En Q2BSTUDIO somos una empresa de desarrollo de software con amplia experiencia en aplicaciones a medida y software a medida, especialistas en inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio y power bi, además de agentes IA y automatización de procesos. Podemos diseñar y desplegar marcos de pruebas para prompts, pipelines de evaluación en CI, y sistemas de moderación y análisis de reseñas end to end. Descubre cómo aplicamos ia para empresas en nuestro servicio de inteligencia artificial y cómo elevamos la eficiencia operativa con automatización de procesos integrada a tus flujos.
Conclusión
Probar prompts con un enfoque sistemático y automatizado reduce la incertidumbre, acelera la iteración y fortalece la fiabilidad del producto. Definir escenarios claros, usar aserciones en capas y llevarlo a integración continua te sitúa por delante. Al igual que en el desarrollo guiado por pruebas, crear primero la batería con promptfoo hace que la evolución del prompt sea más segura y medible. Esa es la diferencia entre confiar en sensaciones y operar con métricas reproducibles.