연구진은 AI 피어 리뷰 시스템의 새로운 취약점을 발견했는데, 숨겨진 텍스트나 프롬프트 주입 없이도 프레젠테이션 수준의 수정만으로 리뷰 결과를 조작할 수 있다는 점이에요.
새로운 공격 방식인 '적대적 재포장'은 AI 리뷰어 피드백을 활용해 논문의 프레젠테이션을 수정하며, 3개의 주요 AI 리뷰어 시스템에서 75.1%의 성공률과 평균 1.21점의 점수 향상을 기록했어요.
연구 결과, AI 리뷰어는 설득하기보다 인상하는 것이 더 쉽고, 논문의 약점을 해결하려는 시도가 오히려 역효과를 낼 수 있으며, 프레젠테이션만으로 증거를 더 강력한 기여로 재해석할 수 있다는 점을 밝혀냈어요.