연구진이 방글라어 의료 시각 질문 답변(MedVQA) 데이터셋인 BanglaMedVQA를 공개했어요. 현재 LLM들은 방글라어 MedVQA에서 낮은 성능을 보여, 전문적인 의료 지식 추론에 어려움을 겪고 있어요. Gemini나 GPT-4.1 mini 같은 최상위 모델조차도 정확한 진단 질문에 제대로 답하지 못했어요. 방글라어 저자원 환경의 어려움을 반영하며, 더 나은 평가 방법론의 필요성을 강조해요.
BanglaMedVQA 데이터셋은 임상적으로 검증된 이미지-질문-답변 쌍으로 구성돼 있으며, 현재 LLM들을 평가하는 데 사용됐어요. Gemma-3 같은 오픈소스 모델도 일반적인 범주에서는 때때로 좋은 성능을 보이지만, 임상적으로 복잡한 질문에는 어려움을 겪고 있어요. 이는 LLM의 의료 분야 활용에 있어 개선해야 할 부분이 많음을 시사해요.
연구 결과는 현재 LLM들이 방글라어 MedVQA에서 낮은 성능을 보이며, 이는 저자원 언어의 어려움과 더불어 LLM의 전문적인 의료 지식 추론 능력 부족을 보여줘요. 연구진은 더 나은 평가 방법론 개발을 촉구하며, BanglaMedVQA 데이터셋을 통해 LLM 연구에 기여하고자 합니다.