연구진은 우울증 환자 시뮬레이터의 임상적 타당성 및 해석 가능성을 평가하기 위한 자동 평가 프레임워크인 PSI-Bench를 소개했어요.
PSI-Bench를 사용하여 7개의 LLM을 벤치마킹한 결과, 시뮬레이터가 지나치게 긴 응답을 생성하고 다양성이 감소하며 감정을 너무 빨리 해결하는 등의 한계점을 발견했어요.
연구 결과, 시뮬레이션 프레임워크가 모델 규모보다 시뮬레이터의 충실도에 더 큰 영향을 미치는 것으로 나타났고, 전문가 판단과도 높은 일치도를 보였어요.