연구진은 GPT-5.2를 포함한 AI 리뷰어가 인간 리뷰어보다 정확한 비판을 제공할 수 있는지 평가하기 위해 전문가 45명을 대상으로 대규모 연구를 진행했어요.
GPT-5.2는 인간 리뷰어 최고 수준을 능가하는 성능을 보였고, Gemini 3.0 Pro와 Claude Opus 4.5 역시 인간 리뷰어 최저 수준을 넘어섰으며, 인간이 언급하지 못한 문제점 26%를 발견했어요.
AI 리뷰어는 인간 리뷰어와 겹치는 부분이 많고, 세부 분야 지식 부족, 맥락 관리 미흡 등 16가지 약점을 보이며, 현재는 인간 리뷰어를 대체하기보다는 보조적인 역할을 수행하는 것으로 평가돼요.