연구진이 AI 메모리 시스템이 단일 사용자 대화에 맞춰져 있어 다자간 소셜 그룹 환경에서는 제대로 작동하지 않는다는 점을 지적했어요. 그룹 환경에서는 공유된 역사에 기반한 사실을 기억하고, 그룹 규범과 개인 예외를 구분해야 하는데, 기존 벤치마크는 이를 반영하지 못해요. SocialMemBench는 5가지 유형의 소셜 그룹 네트워크를 평가하는 새로운 벤치마크로, 총 7,355개의 대화 턴과 1,031개의 질의응답 쌍을 포함해요.
SocialMemBench는 43개의 네트워크를 통해 9가지 질문 카테고리를 분리하여 테스트하고, AI 메모리 시스템의 5가지 실패 모드를 검증하는 데 사용돼요. 현재까지 두 가지 실패 모드에 대한 증거가 발견되었지만, 세 가지는 아직 해결되지 않았어요.
Gemini 2.5 Flash는 소규모 네트워크에서 0.721의 낮은 점수를 기록했으며, 이는 현재 메모리 시스템이 소셜 그룹 환경에 적합하지 않음을 시사해요. Mem0, LangMem, Graphiti, Cognee 등 4가지 오픈소스 메모리 프레임워크는 0.12~0.18 사이의 낮은 점수를 보였어요.