연구진은 LLM 에이전트의 다자간 대화 메모리 성능을 측정하는 새로운 벤치마크 'GroupMemBench'를 공개했어요. 기존 벤치마크는 단일 사용자 설정을 기준으로 했지만, 실제 사용 환경은 그룹 및 채널에서 여러 사용자가 상호작용하는 경우가 많기 때문입니다.
GroupMemBench는 그룹 역학, 사용자 기반 믿음 추적, 청중 맞춤 언어 세 가지 요소를 평가하며, 그래프 기반 합성 파이프라인과 적대적 쿼리 파이프라인을 활용해 복잡한 다자간 대화를 생성합니다.
벤치마크 결과, 현재까지의 가장 강력한 메모리 시스템도 평균 정확도가 46.0%에 불과했으며, 특히 지식 업데이트(27.1%)와 용어 모호성(37.7%)에서 낮은 성능을 보였고, 간단한 BM25 방식이 이를 능가하는 결과가 나왔습니다.