연구진이 기존 코딩 문제 난이도 포화 문제를 해결하기 위해 BenchEvolver라는 새로운 프레임워크를 공개했어요. BenchEvolver는 기존 문제의 해결 방식을 변형하여 더 어려운 문제 변종을 자동으로 생성하는 방식이에요.
이 프레임워크는 LiveCodeBench와 SciCode를 활용해 난이도가 높고 유효하며 다양한 문제들을 생성하고, 이를 통해 GPT-OSS-20B 모델의 코딩 성능을 향상시켰어요.
새롭게 구성된 LiveCodeBench-Plus 벤치마크는 강력한 코딩 모델 간의 성능 차이를 명확하게 보여주며, 모델 스스로 학습하여 성능을 개선하는 데에도 활용될 수 있어요.
연구 결과, BenchEvolver는 포화 상태의 벤치마크를 최첨단 평가 도구 및 재사용 가능한 학습 신호로 전환할 수 있음을 입증했어요.