연구진이 아프리카 및 아시아 지역의 보건 관련 질문에 대한 대규모 언어 모델(LLM)의 답변 정확도를 평가하는 '아프리메드-QA' 벤치마크를 발표했어요. GPT-4, Claude 3 Opus, Gemini 1.5 Pro 등 주요 LLM들은 평균 60%의 정확도를 기록했으며, 지역별로 편향된 답변을 제공하는 경향을 보였어요. 아프리메드-QA는 글로벌 보건 분야에서 LLM 활용 가능성을 높이고, 잠재적 위험을 완화하는 데 기여할 것으로 기대돼요.