다중 작업 벤치마크가 머신러닝 연구의 핵심 기둥이 되었지만, 벤치마크 순위 경쟁을 유발했어요. 벤치마크 데이터 포함 학습을 선거 조작으로 보고, 사회 선택 이론을 활용해 분석했어요. 벤치마크 데이터 학습 문제는 최악의 경우 NP-hard 문제임을 확인했어요.
MMLU와 BIG-Bench Hard(BBH)에서 벤치마크 조작 난이도를 평가한 결과, 평균 승률이 조작하기 가장 어려웠어요. BBH에서 평균 승률의 중간 견고성은 22개 작업(92%)인 반면, 산술 평균은 13개(54%), 중앙값과 쌍대 과반수는 12개(50%)였어요.
연구 결과는 벤치마크 설계와 모델 개발에 중요한 시사점을 제공하며, 벤치마크의 공정성과 신뢰성을 높이는 데 기여할 수 있을 것으로 보입니다.