En esta sección, presentamos pruebas teóricas detalladas que respaldan el marco de Optimización Nash Directa (DNO). La prueba del Teorema 2 implica un procedimiento de dos pasos, comenzando con la regresión utilizando pérdida logarítmica y llevando a un límite de error cuadrado. Las definiciones y suposiciones se basan en gran medida en la concentrabilidad de la teoría del aprendizaje por refuerzo (específicamente en los trabajos de Xie et al., 2021, 2023). Si bien la sección simplifica algunos conceptos para mayor claridad, un análisis teórico completo está más allá del alcance del documento. Las pruebas también aprovechan resultados estándar de la teoría de la regresión, con referencias adicionales proporcionadas para una comprensión más profunda.