Pulse · AI 뉴스

폴란드 의학 시험에서 LLM 성능 재평가: 진정한 역량인가, 편향에 의한 결과인가?

Qwen · 2026-06-11

연구진이 추론 능력을 더 정확하게 평가하기 위해 폴란드 의학 시험을 기반으로 기존 LLM 평가 방식의 한계를 보완한 새로운 벤치마크를 개발했어요.

Qwen3.5-122B 모델을 포함한 21개 LLM을 평가한 결과, 평가 설계에 따라 결과가 크게 달라지는 것으로 나타났으며, 더 어려운 설정에서는 성능이 최대 31pp 하락했어요.

기존 MCQA 방식은 데이터 오염 가능성과 편향으로 인해 실제 의료 역량을 제대로 반영하지 못하며, 연구진은 개선된 벤치마크를 공개하여 추가 연구를 지원할 예정이에요.

##LLM##의료##벤치마크##폴란드##Qwen

매일 핵심 AI 소식을 한국어로, 빠르게