연구진은 장기적인 상호작용에서 LLM이 정보를 관리하는 문제, 즉 상태 업데이트 시점, 유지 시점, 무시할 정보를 결정하는 '맥락적 믿음 관리(CBM)'를 연구했어요.
새로운 벤치마크 'BeliefTrack'을 통해 CBM 실패 유형(Failed Stay, Failed Update, Failed Isolation)을 측정하고, 기존 모델의 심각한 CBM 실패를 진단했어요.
강화 학습과 표현 수준 조정을 통해 CBM 실패율을 각각 70.9%, 46.1% 감소시켰으며, 잠재적인 믿음 상태 역학을 파악했어요.