연구진은 자연어-SQL(NL2SQL) 벤치마크에서 LLM의 성능이 과대평가될 수 있는 오염 문제를 해결하기 위해 SPENCE라는 새로운 프레임워크를 개발했어요.
SPENCE는 Spider, SParC, CoSQL, BIRD 벤치마크의 테스트 쿼리에 대한 다양한 구문 변형을 생성하여 모델의 실행 정확도 변화를 측정하고 순위 민감도를 분석해요.
연구 결과, 오래된 벤치마크는 훈련 데이터 유출 가능성이 높고, 최신 BIRD 벤치마크는 오염되지 않은 것으로 나타나 시간적 맥락을 고려한 평가의 중요성을 강조했어요.