연구진은 검색 증강 추론을 위한 강화 학습 프레임워크인 IG-Search를 제안했어요. 이 기법은 검색 단계별로 정보 획득(IG)을 기반으로 보상을 제공하여 모델의 성능을 향상시킵니다.
IG-Search는 기존 방식의 trajectory-level reward의 한계를 극복하고, 각 검색 쿼리의 효과를 측정하여 모델의 신뢰도를 높이는 데 기여합니다.
Qwen2.5-3B 모델을 사용하여 7개의 QA 벤치마크에서 실험한 결과, IG-Search는 기존 방식보다 평균 EM 점수가 1.6점 향상되었으며, 특히 multi-hop 추론 작업에서 두드러진 성능 향상을 보였습니다.