연구진이 벵골어 LLM 환각 평가 프레임워크 BenHalluEval을 공개했어요. 벵골어는 전 세계에서 6번째로 많이 사용되는 언어이지만, 벵골어 LLM 환각에 대한 체계적인 연구는 부족했습니다.
BenHalluEval은 생성적 질문 답변, 벵골어-영어 코드 혼합 QA, 요약, 추론 등 4가지 작업을 포함하며, GPT-5.4를 활용해 12,000개의 환각 후보를 생성했어요.
연구 결과, 모델과 작업에 따라 환각 교정 점수는 7.72%에서 55.42% 사이로, 환각 교정 수준에 큰 차이가 있는 것으로 나타났어요.
BenHalluEval은 벵골어 전용 환각 벤치마크를 구축하고, 저자원 언어 환경에서 단일 트랙 평가 및 프롬프팅만으로는 충분하지 않음을 보여줬어요.