Pulse · AI 뉴스

다국어 환각 벤치마크: MultiWikiQHalluA

Qwen · 2026-05-04

연구진은 영어 외 다른 언어에서도 환각 현상을 평가하기 위해 MultiWikiQA 데이터셋을 활용해 306개 언어에 대한 환각 데이터셋을 만들고, 30개 유럽 언어에 대한 토큰 수준 환각 분류기를 훈련했어요.

Qwen3-0.6B 모델은 아이슬란드어에서 최대 60%의 높은 환각 비율을 보였고, Qwen3-14B와 같은 더 큰 모델은 일반적으로 낮은 환각 비율을 보였으며, cogito-v1-preview-qwen-32B와 cogito-v1-preview-llama-70B 모델이 대부분의 언어에서 가장 좋은 성능을 보였어요.

환각 비율은 자원 부족 언어에서 더 높았으며, 특히 아이슬란드어에서 두드러졌어요.

##환각##다국어##벤치마크##Qwen##Cogito
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기