Pulse · AI 뉴스

수학/코딩 외 검증 가능한 보상: 사실 기반 질문 응답을 위한 경량 코퍼스 기반 과정 감독

CorVer · 2026-05-28

연구진이 강화 학습을 활용해 사실 기반 질문 응답의 정확도를 높이는 과정에서 보상 설계 문제를 해결했어요. 기존 방식은 문장 단위로만 평가해 정확한 진술과 오류 진술을 구분하기 어려웠어요. CorVer라는 새로운 경량화된 과정 보상을 제안하여 위키피디아의 동시 발생 통계를 활용해 문장 단위 신뢰도를 평가하고 토큰 단위로 적용했어요.

CorVer는 0.5B 추출 모델과 단일 코퍼스 조회를 통해 학습 속도를 4.8~8.4배 향상시켰으며, 30개의 모델과 벤치마크 조합에서 원본 모델보다 평균 4.1%p 성능을 개선했어요. 기존 신경망 검증기 기반 모델보다 20개 중 18개 환경에서 더 뛰어난 성능을 보였어요.

CorVer는 복잡한 신경망 검증기 없이도 사실 기반 질문 응답의 정확도를 높이는 효과적인 방법으로, 특히 희귀 사실에 대한 정확한 보상 신호가 중요한 경우 유용해요.

##강화학습##질문응답##CorVer##코퍼스
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기