연구진은 장기 운영 환경에서 정보 업데이트와 간섭이 발생하는 상황을 시뮬레이션하는 LongMINT 벤치마크를 발표했어요. LongMINT는 상태 추적, 다중 턴 대화, 위키피디아 수정, GitHub 커밋 등 다양한 도메인을 포함해요. 기존 시스템은 장기 기억의 다중 목표 간섭 환경에서 평균 27.9%의 낮은 정확도를 보였어요.
LongMINT는 15.6k 개의 질의응답 쌍으로 구성되며, 평균 138.8k 토큰, 최대 1.8M 토큰에 이르는 긴 문맥을 포함해요. 연구 결과, 현재 시스템은 정보 검색 및 기억 구축 능력의 한계를 드러냈어요.
특히, 이전 사실을 회상하고 추론하는 데 어려움을 겪으며, 개입 업데이트 수가 증가할수록 성능이 저하되는 경향을 보였어요. LongMINT는 장기 기억의 역동적인 상호 작용을 평가하는 데 필요한 새로운 벤치마크를 제공합니다.