연구진은 행동 복제 시 동일한 관찰이 여러 유효한 행동을 허용할 때 어려움이 발생한다고 밝혔습니다. 액션 청킹 정책에 대한 다중 모드 문제를 연구하여 잠재 변수 정책과 액션 공간 생성 정책이 서로 다른 방식으로 실패하는 양상을 분석했습니다.
잠재 변수 정책의 경우, 사후-사전 정규화는 배포 시 샘플링의 안정성을 높이지만, 과도한 정규화는 시연된 모드를 구별하는 데 필요한 액션 조건부 정보를 제거합니다.
합성 다중 모드 작업 및 로봇 시뮬레이션 벤치마크 실험 결과, 위에서 언급한 메커니즘을 뒷받침합니다.