Pulse · AI 뉴스

표준화 환자 사례 기반 LLM 임상 의사 결정 역량 평가

OpenAI · 2026-06-03

연구진은 LLM의 임상 적용 가능성을 평가하기 위해 표준화 환자(SP) 기반의 대화형 벤치마크 MedSP1000을 개발했어요.

MedSP1000은 1,638개의 SP 사례와 24,602개의 trajectory-level 평가 항목으로 구성되어 있으며, LLM이 정보를 수집하고, 치료 계획을 세우고, 환자 상태에 따라 장기적인 관리를 조정하는 과정을 평가해요.

GPT-5.5는 MedSP1000에서 전문가가 정의한 평가 항목의 60.4%만 완료했으며, 전문 의료 LLM은 40.0%로, 현재 LLM은 실제 임상 환경에 안전하게 적용하기 어렵다는 점을 시사해요.

##LLM##의료##벤치마크##GPT-5.5##MedSP1000

매일 핵심 AI 소식을 한국어로, 빠르게