연구진이 추론 능력을 더 정확하게 평가하기 위해 폴란드 의학 시험을 기반으로 기존 LLM 평가 방식의 한계를 보완한 새로운 벤치마크를 개발했어요.
Qwen3.5-122B 모델을 포함한 21개 LLM을 평가한 결과, 평가 설계에 따라 결과가 크게 달라지는 것으로 나타났으며, 더 어려운 설정에서는 성능이 최대 31pp 하락했어요.
기존 MCQA 방식은 데이터 오염 가능성과 편향으로 인해 실제 의료 역량을 제대로 반영하지 못하며, 연구진은 개선된 벤치마크를 공개하여 추가 연구를 지원할 예정이에요.