연구진이 장기 환자 기록 요약 기반 다중 턴 임상 질문 답변 벤치마크인 EHRNote-ChatQA를 공개했어요. EHRNote-ChatQA는 환자의 여러 퇴원 요약본을 활용하며, 967명의 환자 데이터를 기반으로 16,072개의 질문-답변 쌍을 포함해요. 벤치마크 테스트 결과, LLM은 내용 답변보다 증거 기반 답변에서 어려움을 겪고, 다중 턴 과정에서 오류가 누적되는 경향을 보였어요.