대규모 언어 모델(LLM)은 최근 기계 번역(MT)에서 강력한 성능을 보여주고 있습니다. 하지만 대부분의 기존 연구는 번역 품질을 개선하거나 벤치마킹하는 데 집중하여 LLM 기반 번역이 실패하는 시점과 이유에 대한 통찰력을 제한했습니다.
연구진은 토큰 활성화율(TAR)이라는 지표를 도입하여 언어별 토큰 활용 효율성을 측정하고, TAR이 낮은 언어 쌍에서 번역 성능이 저하되는 경향을 확인했습니다.
저자원 언어 번역 성능 향상을 위해서는 LLM의 토큰 수준 역학을 이해하는 것이 중요하며, 추론 LLM은 TAR이 낮은 언어로 번역할 때 더 많은 토큰을 생성하는 경향을 보였습니다.