Pulse · AI 뉴스

표준화 환자 사례를 활용한 동적 임상 의사 결정 환경에서 LLM 평가

OpenAI · 2026-06-04

연구진은 LLM의 동적 의사 결정 능력을 평가하기 위해 표준화 환자(SP) 기반의 대화형 벤치마크 MedSP1000을 개발했어요.

MedSP1000은 1,638개의 SP 사례와 24,602개의 trajectory-level rubric으로 구성되어 있으며, LLM이 정보 수집, 치료 계획, 장기 관리 등 실제 임상 환경에서 수행하는 과정을 평가합니다.

GPT-5.5를 포함한 현재 LLM은 전문가가 정의한 rubric 항목의 60.4%만 완료하는 등 실제 임상 환경에 안전하게 통합하기에는 신뢰성이 부족한 것으로 나타났어요.

##LLM##임상##의료##평가

매일 핵심 AI 소식을 한국어로, 빠르게