En esta sección, proporcionamos pruebas teóricas detalladas que respaldan el marco de Optimización Directa de Nash (DNO). La prueba del Teorema 2 implica un procedimiento de dos pasos, comenzando con una regresión utilizando pérdida logarítmica y llevando a un límite de error cuadrado. Las definiciones y suposiciones se basan en gran medida en la concentrabilidad de la teoría del aprendizaje por refuerzo (específicamente en los trabajos de Xie et al., 2021, 2023). Aunque la sección simplifica algunos conceptos para mayor claridad, un análisis teórico completo está más allá del alcance del documento. Las pruebas también hacen uso de resultados estándar de la teoría de regresión, con referencias adicionales proporcionadas para una comprensión más profunda.