연구진이 인간-인간 상호작용 환경의 복잡성을 반영한 H2HMem 벤치마크를 발표했어요. H2HMem은 다자간 대화와 멀티모달 정보를 포함하며, 메모리 회상, 추론, 활용 능력을 평가해요. 최신 에이전트 실험 결과, 다양한 참가자와 세션에서 멀티모달 메모리를 구성, 유지, 활용하는 데 한계가 있는 것으로 나타났어요. H2HMem은 기존 벤치마크의 단점을 보완하고, 차세대 LLM 에이전트의 성능 개선을 위한 중요한 지표를 제공할 것으로 기대돼요.