연구팀은 다국어 LLM의 설명을 영어로 번역하여 평가하는 과정에서 신뢰성과 충실도 간의 균형이 깨지는 현상을 발견했어요. 영어 번역 설명은 인간의 설명과 일치하는 경향이 있지만, 모델의 예측과 직접적인 인과 관계가 부족하며, 때로는 유창하지만 내용이 부실한 설명을 생성해요. 연구 결과, 영어 피벗 설명을 사용할 경우, 모델의 예측을 충분히 반영하지 못하고, 사회적 맥락을 제대로 파악하지 못하는 문제가 발생했어요.
3가지 작업, 5개 언어, 2가지 다국어 LLM 패밀리를 대상으로 실험한 결과, 영어 설명을 사용하면 작업 정확도는 유지되지만, 모델의 예측을 충분히 반영하는 충실도가 최대 5.7배 감소하는 것으로 나타났어요. 연구팀은 입력 언어로 설명을 감사하고, 어휘 중복 외에 다양한 충실도 지표를 보고하며, 영어 설명을 의사소통 요약으로 취급할 것을 권장해요.