연구진이 의료 비전-언어 모델(VLM)의 인도네시아어 환경에서의 성능을 평가하기 위해 인도네시아 방사선학 시각 질의응답 데이터셋 IndoRad-VQA를 개발했어요. 영어 질문에 비해 인도네시아어 질문을 사용할 때 모델 성능이 8~25%까지 떨어지는 현상이 관찰됐으며, 이는 언어적 강건성 부족을 시사해요. 연구 결과는 의료 다국어 모델 평가 시 다양한 언어 환경을 고려해야 함을 강조하며, 데이터셋은 Hugging Face에서 공개됐어요.