연구진은 환자의 장기 의료 기록을 활용하는 의료 에이전트 평가를 위한 MediLongChat 프레임워크를 개발했어요. 이 프레임워크는 LLM을 활용해 실제와 유사한 장기 의료 대화 데이터를 합성하고, 세 가지 벤치마크를 통해 에이전트의 기억 능력을 평가합니다. 연구 결과, 최첨단 LLM조차 MediLongChat에서 어려움을 겪으며, 의료 에이전트 발전을 위한 맞춤형 방법론의 필요성을 강조합니다.