연구진이 GUI 에이전트의 메모리 방식을 수동 기록 저장에서 능동적 작업 유도 상태로 전환하는 ATMem을 제안했어요.
ATMem은 각 값의 역할과 현재 상태를 연결하여 현재 워크플로우 상태에 따라 행동을 선택할 수 있도록 합니다.
STR-GRPO라는 온라인 강화 학습 방법을 통해 ATMem의 기여도에 따라 선택적으로 사용할 수 있도록 학습해요.
연구진은 ATMem의 성능을 평가하기 위해 모든 작업 범위를 완료하고 범위를 벗어난 행동을 피하는 어려운 모바일 벤치마크를 구축했어요.