연구진은 LLM이 영어 논리 추론 벤치마크에서 높은 성능을 보이지만, 중국어 표현으로 바뀌면 견고성이 유지되는지 확인하기 위해 ChLogic 벤치마크를 개발했어요.
ChLogic은 영어-중국어 정렬 벤치마크로, 일반적인 명제와 어려운 문제, 중국어 현상 유형을 포함한 세 가지 데이터 세트로 구성돼요.
Qwen3, Ministral, GLM 모델 실험 결과, 영어-중국어 성능 격차가 지속적으로 나타났으며, 역번역이 성능에 혼합된 영향을 미치는 것으로 확인됐어요.