연구진은 장기 운영 환경에서 정보 간섭 문제를 해결하는 LongMINT 벤치마크를 공개했어요. 이 벤치마크는 다양한 영역에서 장기적인 기억과 추론 능력을 평가하도록 설계됐어요. LongMINT는 15,600개의 질문-답변 쌍으로 구성되며, 평균 138.8k 토큰, 최대 180만 토큰에 이르는 긴 문맥을 포함하고 있어요.
7개의 시스템을 평가한 결과, 평균 정확도가 27.9%로 매우 낮은 수준을 보였으며, 특히 여러 정보를 종합하는 질문에서 어려움을 겪었어요. 분석 결과, 정보 검색 및 기억 구성 과정에서 한계가 있는 것으로 나타났어요.
기존 시스템은 이전 사실을 기억하고 추론하는 데 어려움을 겪으며, 업데이트 횟수가 증가할수록 성능이 저하되는 경향을 보였어요. 연구진은 이 벤치마크를 통해 장기 기억 시스템의 개선 방향을 제시하고, 실제 환경에서의 적용 가능성을 높이고자 했습니다.