Pulse · AI 뉴스

LongMINT: 장기 기억의 다중 목표 간섭 평가

LongMINT · 2026-05-19

연구진은 장기 운영 환경에서 정보 간섭 문제를 해결하는 LongMINT 벤치마크를 공개했어요. 이 벤치마크는 다양한 영역에서 장기적인 기억과 추론 능력을 평가하도록 설계됐어요. LongMINT는 15,600개의 질문-답변 쌍으로 구성되며, 평균 138.8k 토큰, 최대 180만 토큰에 이르는 긴 문맥을 포함하고 있어요.

7개의 시스템을 평가한 결과, 평균 정확도가 27.9%로 매우 낮은 수준을 보였으며, 특히 여러 정보를 종합하는 질문에서 어려움을 겪었어요. 분석 결과, 정보 검색 및 기억 구성 과정에서 한계가 있는 것으로 나타났어요.

기존 시스템은 이전 사실을 기억하고 추론하는 데 어려움을 겪으며, 업데이트 횟수가 증가할수록 성능이 저하되는 경향을 보였어요. 연구진은 이 벤치마크를 통해 장기 기억 시스템의 개선 방향을 제시하고, 실제 환경에서의 적용 가능성을 높이고자 했습니다.

##벤치마크##기억##장기기억##LongMINT

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기