연구진은 LLM 에이전트의 긴 액션 시퀀스가 추론 비용을 높이는 주요 원인이라고 지적했어요.
Latent Action Reparameterization (LAR) 프레임워크를 제안하여, 각 잠재적 액션이 여러 단계의 의미론적 행동을 나타내는 간결한 잠재적 액션 공간을 학습해요.
LAR는 에이전트 액션을 잠재적 단위로 재파라미터화하여 효과적인 의사 결정 지평선을 단축하면서도 원래 액션 공간의 표현력을 유지하며, 벤치마크에서 추론 효율성을 향상시켰어요.
연구 결과, 액션 표현 학습은 모델 아키텍처 및 하드웨어 발전과 상호 보완적인 중요한 요소임을 시사해요.