연구진은 이미지 생성 평가의 표준인 FID(Frechet Inception Distance)의 재현성을 분석했어요. 모델 재훈련 또는 샘플 재추출 시 FID 값이 크게 변동하는 것을 확인했습니다.
연구 결과, 모델 재훈련 시 무작위 초기화, 데이터 순서, 노이즈 등의 요인으로 인해 FID 값이 크게 이동하며, 컴퓨팅 자원을 늘려도 변동폭을 줄이는 데 한계가 있어요.
연구진은 새로운 FID 평가 프로토콜을 제안하며, 최적의 가이드런스 적용, 통계적 유의성 검증, 여러 훈련 시드에 대한 에러 바 보고를 권장합니다.