LLM 벤치마크 데이터셋이 모델 성능 평가에 중요하지만, 최근 연구에 따르면 많은 데이터셋이 사전 훈련 코퍼스에 포함되어 성능 평가 신뢰도를 떨어뜨리고 있습니다. 본 논문에서는 벤치마크 데이터셋이 추론을 지원하면서도 학습이 불가능한 '오염 방지' 특성을 가져야 한다고 주장합니다. 트랜스포머 아키텍처의 비대칭성을 활용하고 수학적 발전을 통해 다양한 LLM 아키텍처에서 데이터셋을 활용할 수 있도록 해야 합니다.
벤치마크 데이터셋 오염의 만연성과 오염 방지 데이터셋의 특성을 강조하고, 추론과 학습 파이프라인의 비대칭성을 활용하는 방법을 제시합니다. 또한, 다양한 LLM 아키텍처에서 데이터셋을 상호 운용할 수 있도록 수학적 발전을 촉구합니다.
LLM 벤치마킹의 신뢰성을 확보하기 위해 새로운 오염 방지 방법론 개발, 지원 방법 및 플랫폼 개발, 기존 평가 파이프라인에 오염 방지 벤치마크 채택을 촉구합니다.