한 대학생 개발자가 LongMemEval-S 벤치마크에서 90.4%의 높은 점수를 달성했어요. 이 과정에서 임베딩을 사용하지 않고 구조화된 저장 방식을 활용했어요.
벤치마크 결과 분석 도구를 공개하여 500개의 질문을 카테고리별로 분류하고, 정답/오답 여부를 확인할 수 있도록 했어요. 모델별 답변과 실패 원인을 비교 분석할 수 있어요.
기존 방식의 한계를 극복하기 위해 3단계 고정 파이프라인을 구축했는데, 메모리 저장 방식이 검색 성능을 향상시키는 핵심 요소였어요.