연구진은 희소 오토인코더(SAE) 평가 기준으로 널리 쓰이는 SAEBench의 신뢰성을 점검했어요. TPP와 SCR 두 지표는 여러 관점에서 실패했고, 다른 지표들도 기존 생각보다 재현성과 구분이 떨어지는 것으로 나타났어요. 연구 결과, SAE 벤치마크 개선이 필요하다는 점을 시사합니다.
SAEBench의 sae-probes 방식이 가장 신뢰도가 높았지만, 동일 아키텍처의 SAE 변별력은 여전히 부족했어요. 이는 SAE 아키텍처 발전에 필요한 정확한 평가 기준 마련의 필요성을 보여줘요.
본 연구는 SAE 품질 평가 지표의 문제점을 지적하고, 더 나은 벤치마크 개발을 위한 방향성을 제시하며, LLM 해석 가능성 연구에 기여할 것으로 보입니다.