연구진은 LLM의 동적 의사 결정 능력을 평가하기 위해 표준화 환자(SP) 기반의 대화형 벤치마크 MedSP1000을 개발했어요.
MedSP1000은 1,638개의 SP 사례와 24,602개의 trajectory-level rubric으로 구성되어 있으며, LLM이 정보 수집, 치료 계획, 장기 관리 등 실제 임상 환경에서 수행하는 과정을 평가합니다.
GPT-5.5를 포함한 현재 LLM은 전문가가 정의한 rubric 항목의 60.4%만 완료하는 등 실제 임상 환경에 안전하게 통합하기에는 신뢰성이 부족한 것으로 나타났어요.