연구진은 LLM의 장문 컨텍스트 추론 벤치마크가 위치 정보 제어 없이 진행되어 문제점을 지적했어요.
GSM8K와 ARC-Challenge에서 Context Rot Evaluation(CRE)를 통해 위치 변화에 따른 성능 저하를 확인했는데, 중간 위치로 이동 시 성능이 급격히 떨어지는 모델이 많았어요.
MiMo-v2-Flash는 64K 컨텍스트에서 중간 위치 시 정확도가 8%까지 떨어졌지만, 최신 모델들은 위치에 따른 성능 변화가 적어졌어요.
연구 결과, 현재 벤치마크 설계 및 모델 평가 방식의 구조적 오류가 드러났으며, 위치 정보 제어를 통해 장문 컨텍스트에서의 LLM 성능을 정확하게 평가해야 한다고 강조했어요.