최근 LLM의 빠른 도입으로 자동 피어 리뷰에 대한 관심이 높아지고 있지만, 리뷰를 단순 점수 예측으로만 평가하는 기존 벤치마크로는 발전이 제한적이에요.
연구진은 리뷰의 유용성은 텍스트 기반의 근거, 즉 논거, 질문, 비판에 있다는 점을 강조하며, Beyond Rating이라는 새로운 평가 프레임워크를 제시했어요.
Beyond Rating은 내용 충실성, 논거 일치성, 초점 일관성, 질문의 건설성, AI 유사성 등 5가지 차원을 평가하며, 인간 전문가의 의견 차이를 고려한 Max-Recall 전략을 도입했어요.