Los experimentos evalúan el algoritmo DNO (específicamente, DNO-Prct) utilizando un proceso de entrenamiento iterativo que combina la puntuación GPT-4-Turbo con comparaciones emparejadas curadas. UltraFeedback forma el conjunto de datos principal, con ensayos adicionales a gran escala. La evaluación se realiza utilizando AlpacaEval 2.0, MT-Bench y OpenLLM Leaderboard. Los resultados destacan cómo DNO se acerca al rendimiento de vanguardia a través de una modelización de preferencias eficiente y escalable.