연구진이 에이전트 검색의 정확도를 높이기 위해 FineVerify라는 자체 검증 프레임워크를 제안했어요.
FineVerify는 질문을 세분화된 하위 질문으로 나누고, 샘플링된 후보들을 각 하위 질문에 맞춰 검증하여 가장 높은 점수를 가진 후보를 선택해요.
GPT-5-mini와 Gemini-3-flash 모델을 테스트한 결과, FineVerify는 기존 방식보다 평균 8.2개의 정확도 포인트를 향상시켰고, 12개의 샘플로 GPT-5-mini가 BrowseComp-Plus에서 GPT-5를 능가했어요.