연구자가 상태 저장 방식이 아닌 LLM 챗봇의 장기 대화 처리 능력과 정보 기억력 연구를 진행 중입니다. LLM API를 활용하여 초기 정보를 입력하고, 수백 번의 무관한 메시지를 주고받은 후, 모델이 해당 정보를 얼마나 정확하게 기억하는지 측정할 계획입니다. 연구 방법론에 대한 피드백을 요청하며, 더 엄격하고 설득력 있는 평가 방법과 지표에 대한 의견을 구하고 있습니다.
기존 벤치마크나 방법이 있는지, 어떤 지표가 평가를 더 엄격하고 설득력 있게 만들 수 있는지에 대한 질문을 던졌습니다. LLM 챗봇의 장기 기억 한계를 평가하는 방법론에 대한 의견을 환영합니다.
연구자는 평가를 최대한 견고하게 만들기 위해, 본격적인 구축 전에 피드백을 받고자 합니다.