연구진은 OpenAIReview, coarse, Reviewer3 등 AI 리뷰 시스템과 zero-shot baseline을 GPT-5.5를 포함한 6개 LLM으로 평가했어요.
AI 리뷰는 인간 평가와 일관성을 보이며, OpenAIReview + GPT-5.5 조합이 83.0%의 정확도를 기록했어요.
오류 주입 벤치마크 테스트에서 OpenAIReview + GPT-5.5는 71.6%의 오류 감지율을 보였고, 6개 모델의 조합은 83.3%까지 향상됐어요.