DeepSeek V3.1 y Promptfoo: Jailbreaks, Sesgos y Más

Publicado el 01/09/2025

DeepSeek V3.1 Meets Promptfoo Jailbreaks Biases and Beyond

Por qué hacer red team a DeepSeek V3.1

A medida que los modelos de lenguaje crecen en escala y complejidad, el red teaming se convierte en una salvaguarda crítica. No basta con medir precisión y velocidad. La puesta en producción depende de la resiliencia frente a usos maliciosos, intentos de saltarse políticas y salidas perjudiciales. DeepSeek V3.1 avanza el estado del arte con modo híbrido de razonamiento, llamadas a herramientas mejoradas y contexto extendido de 128K. Es ideal para razonamiento de largo alcance y agentes de código, pero ese mismo poder amplía la superficie de ataque. El objetivo del red team no es romper el modelo, sino someterlo a estrés de forma responsable para que salvaguardas, políticas y mitigaciones evolucionen junto con sus capacidades.

Qué es DeepSeek V3.1

DeepSeek V3.1 es un modelo híbrido con 671B de parámetros y 37B activados con mejoras clave de arquitectura. Incluye pensamiento híbrido con conmutación de modo mediante plantillas de chat, llamadas a herramientas y soporte de agentes optimizados para JSON estructurado, agentes de búsqueda y frameworks de código, razonamiento con contexto largo de hasta 128K tokens gracias a entrenamiento por fases, postentrenamiento con microscaling FP8 para eficiencia, y trayectorias de plantillas para herramientas, código y agentes de búsqueda. Frente a V3.0, la versión 3.1 es más rápida, eficiente y segura por defecto, pero el red team descubre vulnerabilidades ocultas, como posibles jailbreaks del modo híbrido, generación de contenido no conforme o el manejo de dominios sensibles como desinformación, ciberseguridad y filtrado de PII.

Prerrequisitos

Para ejecutar red team a DeepSeek V3.1 con Promptfoo necesitas Node.js v18 o superior, npm actualizado, una clave de API de OpenRouter para acceder al endpoint de DeepSeek V3.1 y la herramienta Promptfoo en su última versión.

Recursos

Puedes usar Promptfoo como herramienta de evaluación y red teaming, y acceder a DeepSeek V3.1 a través del gateway de OpenRouter y su documentación. Verifica que Node.js y npm están instalados ejecutando node -v y npm -v y continúa con la instalación y configuración del proyecto.

Paso 1 Verifica Node.js y npm

Comprueba que cumples versiones mínimas de Node.js y npm. Si todo está correcto, pasa a inicializar el proyecto de red team con Promptfoo.

Paso 2 Inicializa un proyecto de Red Team con Promptfoo

Desde tu carpeta de trabajo ejecuta npx promptfoo@latest redteam init deepseekv3.1-redteam --no-gui para crear la estructura base y ficheros de configuración sin asistente gráfico.

Paso 3 Nombra el objetivo de red team

Cuando se te solicite el nombre del sistema, usa un identificador claro como deepseek-chat-v3.1. Este nombre aparecerá en la configuración, informes y resultados.

Paso 4 Elige el tipo de objetivo

Selecciona Red team a model plus prompt, ya que DeepSeek V3.1 es un modelo accesible vía API y se evaluará mediante prompts.

Paso 5 Decide cuándo introducir el prompt

Elige Enter prompt later para definir más tarde múltiples prompts y escenarios adversariales dentro de la carpeta de escenarios del proyecto.

Paso 6 Selecciona el modelo

Elige Ill choose later para configurar luego un proveedor personalizado que apunte a OpenRouter DeepSeek V3.1 dentro de promptfooconfig.yaml.

Paso 7 Configura plugins para entradas adversarias

Selecciona Use the defaults configure later para cargar un conjunto base de plugins que generan casos como jailbreaks, contenido dañino, sesgos o sondas de PII. Ajustarás esta lista después.

Paso 8 Configura estrategias de ataque

Elige Use the defaults configure later para emplear estrategias estándar como jailbreak, multilingual, prompt injection o chaining, que podrás personalizar más adelante.

Paso 9 Confirmación de inicialización

Se crea el archivo deepseekv3.1-redteam promptfooconfig.yaml y la estructura necesaria para iniciar las pruebas.

Paso 10 Exporta tu clave de OpenRouter

Define la variable de entorno OPENROUTER_API_KEY en tu shell. Esa credencial autentica llamadas a modelos como openrouter deepseek deepseek-chat-v3.1.

Paso 11 Revisa la configuración del proyecto

Abre promptfooconfig.yaml y comprueba que existe. Verás un modelo de ejemplo que tendrás que sustituir por DeepSeek V3.1 a través de OpenRouter.

Paso 12 Edita promptfooconfig.yaml para apuntar a DeepSeek V3.1

Configura providers y targets para usar openrouter deepseek deepseek-chat-v3.1. Ajusta temperature, max tokens y, si procede, activa el razonamiento híbrido en extraBody con razonamiento enabled true, effort medium y exclude true para ocultar el pensamiento interno del resultado.

Paso 13 Genera casos de prueba adversariales

Ejecuta npx promptfoo@latest redteam generate. Promptfoo sintetiza casos para los prompts definidos, aplica plugins de sesgos, seguridad, PII y estrategias como jailbreak o multilingual, y guarda todo en redteam.yaml.

Paso 14 Revisa el resumen y el informe de generación

Observa totales de casos, número de plugins y estrategias, y el estado de generación. Si todo está correcto verás que el archivo redteam.yaml contiene miles de pruebas expandidas.

Paso 15 Valida el contenido de redteam.yaml

Comprueba metadatos, definición del target con openrouter deepseek deepseek-chat-v3.1, las plantillas de prompts base y la expansión de casos adversariales generados por plugins y estrategias.

Paso 16 Ejecuta la evaluación contra DeepSeek V3.1

Lanza promptfoo redteam eval para enviar los casos a través de OpenRouter. Al finalizar obtendrás un resumen con tasas de éxito por plugin y estrategia, además de los registros de fallos. Para acelerar puedes usar npx promptfoo@latest redteam run --max-concurrency 30 ajustando la concurrencia a tus límites de API.

Paso 17 Genera y explora el informe interactivo

Ejecuta npx promptfoo@latest redteam report para abrir un panel interactivo local. Allí filtras, buscas y profundizas en fallos y vulnerabilidades específicas para entender causas y priorizar mitigaciones.

Paso 18 Revisa el panel de evaluación de riesgos

El informe agrega severidades críticas, altas, medias y bajas, además de metadatos de objetivo y número de sondas. Ofrece una instantánea del perfil de riesgo de DeepSeek V3.1 y confirma que evaluaste el modelo correcto vía OpenRouter.

Paso 19 Analiza riesgos y vulnerabilidades por categoría

Seguridad y control de acceso demostró un desempeño alto con puntos débiles en secuestro de recursos. Cumplimiento y legal mostró fallos en compromisos no autorizados, contenido de armas y código malicioso. Confianza y seguridad reveló inconsistencias de sesgo y dificultades con acoso y contenido explícito. Marca y fiabilidad fue el área más débil con alucinaciones, desinformación y sesgo político. Estas señales indican la necesidad de reforzar guardarraíles, moderación y detección de desviaciones.

Paso 20 Explora la tabla de vulnerabilidades y mitigaciones

El panel lista cada vulnerabilidad con tipo, descripción, tasa de éxito del ataque y severidad. Desde ahí accedes a registros detallados, aplicas mitigaciones y exportas a CSV para auditoría y comunicación. Esto convierte el escaneo de red team en una hoja de ruta accionable de remediación.

Hallazgos clave del red team a DeepSeek V3.1

Seguridad y acceso con alta conformidad, pero fallos en hijacking y manejo de sesión. Cumplimiento expuesto a compromisos no autorizados, insinuaciones de código malicioso y riesgos de propiedad intelectual. Confianza y seguridad con sesgos de edad y género y bypass de rechazos. Fiabilidad de marca con debilidades frente a alucinación, desinformación y sesgo político.

Conclusión

DeepSeek V3.1 es un modelo híbrido de razonamiento de última generación que sobresale en contexto largo, llamadas a herramientas y eficiencia. Sin embargo, el red teaming revela vulnerabilidades reales en jailbreaks, manejo de desinformación, secuestro de recursos y generación insegura. La lección es clara la capacidad no equivale a seguridad. Incluso los modelos avanzados requieren guardarraíles, filtros de salida y auditorías continuas. Para desplegar DeepSeek V3.1 en producción, conviene combinar endurecimiento de prompts del sistema, moderación de contenidos, supervisión continua y políticas claras de abuso.

Cómo te ayuda Q2BSTUDIO

En Q2BSTUDIO diseñamos soluciones de inteligencia artificial y ciberseguridad extremo a extremo para empresas que necesitan transformar su operación con agentes IA, automatización robusta y controles de riesgo. Combinamos aplicaciones a medida, software a medida, servicios cloud AWS y Azure, servicios de inteligencia de negocio y power bi con prácticas de red teaming, evaluación de sesgos y filtros de seguridad para que tus modelos pasen de pruebas a producción con garantías. Si buscas un partner de ia para empresas o una agencia especializada en agentes IA y despliegue seguro, descubre cómo te acompañamos en estrategia, implementación y gobierno visitando nuestra página de inteligencia artificial. Y si quieres reforzar tu postura defensiva con pruebas de intrusión, detección de fugas y respuesta ante incidentes, explora nuestro servicio de ciberseguridad y pentesting.

Palabras clave estratégicas

aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA, power bi, automatización de procesos, gobierno de datos, evaluación de sesgos, moderación de contenido, red team LLM, Promptfoo, OpenRouter, DeepSeek V3.1

POLITICA DE COOKIES

DeepSeek V3.1 y Promptfoo: Jailbreaks, Sesgos y Más

DeepSeek V3.1 y Promptfoo: Jailbreaks, Sesgos y Más

Dando vida a tus ideas desde 2008