연구진은 실제 중환자실(ICU) 데이터를 활용한 새로운 벤치마크 'RealICU'를 공개하여 기존 LLM의 성능을 평가하고 개선점을 제시했습니다.
RealICU는 환자 전체 경과를 검토한 숙련의사의 판단을 바탕으로 환자 상태 평가, 급성 문제 파악, 권장 조치, 위험 상황 판단 등 4가지 과제를 포함합니다.
기존 LLM은 RealICU에서 성능이 저조했으며, 임상 권장 사항의 안전성 균형 문제와 초기 해석에 대한 고정 편향 등의 실패 모드를 드러냈습니다.