연구진은 LLM 기반 피어 리뷰어의 성능을 평가하는 벤치마크 프레임워크 PRISM을 공개했어요. PRISM은 분석 깊이, 참신성 평가, 결함 식별, 주요 문제 우선순위 등 4가지 차원에서 리뷰 품질을 평가해요. 벤치마크 결과 LLM은 인간 리뷰어와 견줄 만한 성능을 보였지만, 모든 차원에서 인간을 대체하기는 어려울 것으로 나타났어요.