연구진은 AI 리뷰어 평가의 어려움을 해결하기 위해 CoCoReviewBench를 구축했습니다. 이 벤치마크는 인간 리뷰의 오류를 보완하고 정확성을 높이기 위해 전문가의 의견을 활용하고 신뢰할 수 없는 리뷰를 필터링합니다. CoCoReviewBench는 ICLR 및 NeurIPS 논문 3,900편을 선별하여 AI 리뷰어를 평가할 수 있도록 지원합니다.
분석 결과, AI 리뷰어는 여전히 정확성 측면에서 한계가 있으며 환각 현상에 취약한 것으로 나타났습니다. 특히 추론 모델이 더 효과적인 리뷰어임을 보여주며, AI 리뷰어 개선을 위한 추가 연구 방향을 제시합니다.
CoCoReviewBench 벤치마크와 관련 모델은 GitHub 저장소에서 확인할 수 있습니다.