Esta sección presenta DNO-Prct, una implementación práctica y escalable de Optimización Directa Nash. Utiliza aprendizaje contrastivo iterativo, similar a DPO, pero está diseñado para entrenamiento en lotes en política con preferencias generales. Al utilizar señales de recompensa de forma implícita y estructurar comparaciones por pares, DNO-Prct permite una auto-mejora eficiente y se acerca al equilibrio de Nash en modelos de preferencias de IA complejos.