연구진은 폐쇄형 LLM의 내부 정보 접근이 어려운 상황에서, 오픈 LLM을 활용해 폐쇄형 모델의 작동 방식을 파악하는 'Surrogate Fidelity'를 평가했어요.
예측 정확도는 높지만, 모델의 작동 이유에 대한 설명 정확도는 낮았으며, 모델 간의 일치성이 낮은 '블랙박스' 속성이 관찰됐어요.
예측 수준의 합의만으로는 폐쇄형 모델에 대한 메커니즘적 통찰력을 이전하기 어렵다는 점을 확인하고, 관련 코드와 결과를 GitHub에서 확인할 수 있어요.