연구진은 의료 AI 평가의 신뢰성 문제를 해결하기 위해 Gemini 3 Flash를 포함한 LLM 평가 모델을 활용한 MedQADE 벤치마크를 개발했어요. Gemini 3 Flash는 임상의와 통계적으로 유사한 수준의 평가 일치도를 보였지만, 어려운 질문에 대한 판단 유보 능력은 부족했어요. 연구 결과, LLM 평가 모델은 건축 양식에 따른 편향을 보였으며, 통계적 일치도가 임상적 주의를 보장하지 않는다는 점을 확인했어요.