Maven은 장문 맥락 추론을 위한 새로운 강화 학습 프레임워크입니다. 증거 메모리를 편집하며, 중간 단계 행동에 대한 상태 변화를 보상합니다. Llama와 Qwen 모델을 LongBench v2, LongReason, RULER 데이터셋에서 평가했을 때, 기존 방식보다 더 충분한 증거 집합을 생성하고 오해의 소지가 있는 정보를 줄이는 데 효과적이었어요.
Maven은 증거 메모리에 대한 증거 상태 값을 정의하고, 증거 추가 시에는 기여도, 연결 시에는 시너지 효과, 삭제 시에는 답변 지원 개선 효과를 보상합니다. 이를 통해 모델이 장문 맥락 내에서 효과적으로 증거를 탐색하고 활용하도록 유도합니다.
연구 결과, 장문 맥락 강화 학습은 일회성 증거 추출보다 상태를 최적화하는 증거 탐색에 더 큰 이점을 얻는다는 것을 보여줍니다.