연구진은 에이전트 강화 학습에서 토큰별 훈련 신호가 행동 토큰에 집중되는 '행동 병목 현상'을 발견했습니다. ActFocus라는 새로운 토큰 재가중치 접근 방식을 제안하여 추론 토큰의 가중치를 낮추고 불확실성이 높은 행동 토큰의 가중치를 높였습니다. ActFocus는 4가지 환경에서 PPO 및 GRPO보다 성능이 뛰어나 최종 단계에서 최대 65.2% 및 63.7%의 이득을 얻었습니다.