연구진은 다국어 관용구 번역의 어려움을 해결하기 위해 영어 gloss를 활용한 벤치마크 G-IdiomAlign을 발표했어요. G-IdiomAlign은 객관식 문제와 gloss 대비 생성 방식 두 가지 프로토콜을 지원하며, LLM의 직역 편향 문제를 분석했어요. Qwen3-8B 분석 결과, gloss는 생성 성능을 향상시키지만, 여전히 개선의 여지가 많고 attention head에 집중된 경향을 보였어요.