Esta sección introduce DNO-Prct, una implementación práctica y escalable de Optimización Directa Nash. Utiliza aprendizaje contrastivo iterativo, similar a DPO, pero está diseñado para entrenamiento en lotes en política con preferencias generales. Al usar señales de recompensa de forma implícita y estructurar comparaciones en pares, DNO-Prct permite una mejora eficiente por sí mismo y se acerca al equilibrio de Nash en modelos de preferencias de IA complejos.