Los experimentos evaluán el algoritmo DNO (específicamente, DNO-Prct) utilizando un proceso de entrenamiento iterativo que combina puntuaciones GPT-4-Turbo con comparaciones emparejadas curadas. UltraFeedback forma el conjunto de datos central, con ensayos adicionales a gran escala. La evaluación se realiza utilizando AlpacaEval 2.0, MT-Bench y OpenLLM Leaderboard. Los resultados resaltan cómo DNO se acerca al rendimiento de vanguardia a través de una modelización de preferencias eficiente y escalable.