Pulse · AI 뉴스

BenchEvolver: 기존 코딩 문제 진화시켜 난이도 극복하는 새로운 프레임워크

BenchEvolver · 2026-05-31

연구진이 기존 코딩 문제 난이도 포화 문제를 해결하기 위해 BenchEvolver라는 새로운 프레임워크를 공개했어요. BenchEvolver는 기존 문제의 해결 방식을 변형하여 더 어려운 문제 변종을 자동으로 생성하는 방식이에요.

이 프레임워크는 LiveCodeBench와 SciCode를 활용해 난이도가 높고 유효하며 다양한 문제들을 생성하고, 이를 통해 GPT-OSS-20B 모델의 코딩 성능을 향상시켰어요.

새롭게 구성된 LiveCodeBench-Plus 벤치마크는 강력한 코딩 모델 간의 성능 차이를 명확하게 보여주며, 모델 스스로 학습하여 성능을 개선하는 데에도 활용될 수 있어요.

연구 결과, BenchEvolver는 포화 상태의 벤치마크를 최첨단 평가 도구 및 재사용 가능한 학습 신호로 전환할 수 있음을 입증했어요.

##LLM##벤치마크##코딩##AI##평가
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기