연구진이 AI 이미지 생성물 탐지기 2가지(AEROBLADE 스타일 재구축 점수, RIGID 스타일 노이즈-특징 유사도 점수)를 성능 비교를 위해 통제된 환경에서 분석했어요.
분석 결과, 구현 세부 사항이 방법 차이로 위장하고, 점수 방향은 하이퍼파라미터에 따라 달라지며, 데이터셋 형식 편향이 견고성 주장을 과장하는 등 주의해야 할 점이 발견됐어요.
각 탐지기는 특정 생성 모델에서 실패하는 경향을 보이지만, 단순 z-점수 융합은 가장 좋은 단일 점수보다 성능이 좋지 않아, 상호 보완성을 활용하려면 방향 인지 조합이 필요해요.