연구진은 임상 LLM의 안전성 변화를 측정하는 SaFE-Scale 프레임워크를 소개하며, 모델 규모, 증거 품질, 검색 전략, 컨텍스트 노출, 추론 시간 컴퓨팅에 따른 변화를 분석했습니다.
RadSaFE-200 벤치마크를 통해 임상 LLM의 안전성을 평가한 결과, 깨끗한 증거를 사용할 때 정확도가 73.5%에서 94.1%로 향상되었으며, 고위험 오류, 안전하지 않은 답변, 증거 모순이 감소했습니다.
연구 결과, 임상 LLM의 안전성은 단순히 모델 규모를 키우는 것만으로는 확보하기 어려우며, 증거 품질, 검색 설계, 컨텍스트 구성, 집단적 실패 행동에 의해 결정됩니다.