Nature Medicine에 게재된 논문에서 GPT-5.2, Gemini 3.1 Pro, Claude Opus 4.6 같은 범용 AI 모델이 의료 전용 AI 툴을 능가하는 성능을 보였다고 발표했어요. 하지만 논문의 객관성에 의문이 제기되며, 채점자 간 일치도가 0.10으로 매우 낮고, 채점자가 연구 참가자일 가능성이 있다는 지적이 나왔어요.