대규모 언어 모델(LLM)은 과학 및 수학 문제를 해결하는 데 강력한 기능을 보이지만, LLM 훈련을 발전시키고 자율적인 과학 연구를 가능하게 하는 데 필수적인 유효하고 도전적이며 새로운 문제 생성에는 어려움을 겪습니다.
VHG는 세 당사자 자가 플레이를 기반으로 독립적인 검증기를 통합하여 설계된 검증기 강화 난이도 문제 생성 프레임워크입니다.
실험 결과, VHG는 유한 적분 작업 및 일반적인 수학적 추론 작업에서 모든 기준 방법보다 뚜렷한 차이로 성능을 능가했습니다.