APEX는 LLM 에이전트의 지속적인 학습을 위한 자율 정책 탐색 기법입니다. 기존 방식의 탐색 실패 문제를 해결하기 위해 전략 맵을 구축하고, 미지의 영역을 탐색하는 Fork Discovery와 최적의 전략을 선택하는 Policy Selection을 활용합니다. Jericho 텍스트 어드벤처 게임과 WebArena 벤치마크에서 기존 방식보다 뛰어난 성능을 보여주며, 다양한 환경에서 효과적인 탐색을 가능하게 합니다.