연구진은 LLM의 입력 요소 배열 순서에 따른 성능 변화 문제를 해결하기 위해 이중 그룹 이점 최적화(DGAO) 기법을 제안했습니다. DGAO는 강화 학습을 활용하여 모델의 정확도와 순서 안정성을 동시에 향상시키는 것을 목표로 합니다.
DGAO는 그룹 내 상대적 정확도 이점과 그룹 간 상대적 안정성 이점을 계산하고 균형을 맞추어 순서에 민감하거나 부정확한 응답을 억제합니다.
연구 결과, DGAO는 RAG, 수학적 추론, 분류 작업에서 우수한 성능을 보이며 기존 방법의 한계를 극복하고 LLM의 순서 공정성을 개선했습니다.