연구진은 LLM의 임상 적용 가능성을 평가하기 위해 표준화 환자(SP) 기반의 대화형 벤치마크 MedSP1000을 개발했어요.
MedSP1000은 1,638개의 SP 사례와 24,602개의 trajectory-level 평가 항목으로 구성되어 있으며, LLM이 정보를 수집하고, 치료 계획을 세우고, 환자 상태에 따라 장기적인 관리를 조정하는 과정을 평가해요.
GPT-5.5는 MedSP1000에서 전문가가 정의한 평가 항목의 60.4%만 완료했으며, 전문 의료 LLM은 40.0%로, 현재 LLM은 실제 임상 환경에 안전하게 적용하기 어렵다는 점을 시사해요.