Pulse · AI 뉴스

아프리메드-QA: 글로벌 보건 분야 LLM 성능 벤치마킹

Google Research · 2025-09-25

연구진이 아프리카 및 아시아 지역의 보건 관련 질문에 대한 대규모 언어 모델(LLM)의 답변 정확도를 평가하는 '아프리메드-QA' 벤치마크를 발표했어요.

GPT-4, Claude 3 Opus, Gemini 1.5 Pro 등 주요 LLM들은 평균 60%의 정확도를 기록했으며, 지역별로 편향된 답변을 제공하는 경향을 보였어요.

아프리메드-QA는 글로벌 보건 분야에서 LLM 활용 가능성을 높이고, 잠재적 위험을 완화하는 데 기여할 것으로 기대돼요.

##벤치마크##글로벌보건##LLM

매일 핵심 AI 소식을 한국어로, 빠르게