Esta sección presenta una extensión del marco de Optimización Nash Directa (DNO) para manejar preferencias regularizadas. La principal diferencia entre SPO y Nash-MD radica en el uso de políticas suavizadas para este último, lo que ayuda a obtener una garantía de convergencia tardía. La sección introduce una nueva versión de DNO, diseñada para converger a un equilibrio de Nash usando KL-regularización. El algoritmo (Algoritmo 3) funciona de forma iterativa, ajustando la distribución de la política a través de una función de partición y una función de recompensa, refinando finalmente la política con cada iteración. Este enfoque ayuda a abordar los desafíos de las preferencias regularizadas mientras garantiza una convergencia estable.