연구진은 AI 피어 리뷰 시스템의 새로운 취약점을 발견했는데, 숨겨진 지시어나 프롬프트 인젝션 없이도 프레젠테이션 수준의 내용만 수정하는 것으로 공격이 가능하다 해요.
새로운 공격 기법 '적대적 재포장'은 AI 리뷰어 피드백을 활용해 과학적 근거는 고정하고 프레젠테이션을 수정하며, 3개의 주요 AI 리뷰어에서 75.1%의 성공률과 평균 1.21점의 점수 향상을 기록했어요.
연구 결과, AI 리뷰어는 설득하기보다 인상하는 것이 더 쉽고, 한계점을 해결하는 시도는 오히려 역효과를 낼 수 있으며, 프레젠테이션만으로도 증거를 더 강력한 기여로 재해석할 수 있다는 점이 밝혀졌어요.