연구진은 영어 외 다른 언어에서도 환각 현상을 평가하기 위해 MultiWikiQA 데이터셋을 활용해 306개 언어에 대한 환각 데이터셋을 만들고, 30개 유럽 언어에 대한 토큰 수준 환각 분류기를 훈련했어요.
Qwen3-0.6B 모델은 아이슬란드어에서 최대 60%의 높은 환각 비율을 보였고, Qwen3-14B와 같은 더 큰 모델은 일반적으로 낮은 환각 비율을 보였으며, cogito-v1-preview-qwen-32B와 cogito-v1-preview-llama-70B 모델이 대부분의 언어에서 가장 좋은 성능을 보였어요.
환각 비율은 자원 부족 언어에서 더 높았으며, 특히 아이슬란드어에서 두드러졌어요.