연구진은 LLM의 논리적 추론 성능이 영어 외 다른 언어에서도 유지되는지 평가하기 위해 ChLogic 벤치마크를 발표했어요. ChLogic은 영어와 중국어 표현을 연계하여 논리적 구조가 동일하더라도 표면적인 표현이 다를 때 모델의 성능을 테스트해요. Qwen3, Ministral, GLM 모델 실험 결과, 영어와 중국어 간 성능 격차가 지속적으로 나타났어요.
표준 중국어에서 영어로 역번역하면 General aligned 세트 성능이 향상되지만, Difficult aligned 세트에서는 Qwen3-32B와 GLM-5.1의 성능이 오히려 저하되는 현상이 관찰돼요. 이는 중국어 표면 실현, 번역 오류, 모델별 특성이 다국어 논리적 추론에 영향을 미치는 것을 시사해요.
ChLogic은 다국어 추론의 견고성을 테스트하는 데 유용한 도구로, 다국어 환경에서 LLM의 성능을 평가하고 개선하는 데 활용될 수 있을 것으로 기대돼요.