연구진은 장기적인 언어 에이전트의 한계, 즉 제한된 컨텍스트 창 내에서 반복적인 상호작용과 의사 결정을 수행하는 문제를 해결하기 위해 ECHO 프레임워크를 제안했어요.
ECHO는 완료된 환경의 각 단계를 압축하여 메모리 레코드로 변환하고, 정책 컨텍스트를 재구성하기 위해 이러한 레코드에서 선택적으로 데이터를 활용하며, 성공적인 답변을 뒷받침하는 증거와 선택 액션에 대한 긍정적인 결과 신호를 전달하는 방식으로 작동해요.
BrowseComp-Plus 벤치마크에서 ECHO는 43.4%의 정확도를 달성하여 기존 방법인 GRPO(28.9%) 및 SUPO(36.1%)를 능가했으며, 더 적은 횟수와 낮은 볼륨으로 목표를 달성했어요.