연구진은 식품 조작 시뮬레이션에 필요한 정확한 물질 파라미터 추정을 위해 잠재 공간 강화 학습 방법을 제안했어요. CMA-ES와 PPO 알고리즘을 비교한 결과, 학습된 4차원 잠재 공간에서 PPO가 9차원 파라미터 공간보다 23% 더 높은 정확도를 보였어요. 목표 조건 PPO 정책은 8번의 서브 평가와 약 10ms 만에 임의의 껍질 벗기 행동에 대한 물질 파라미터 추정치를 생성하며, 실제 복구율은 0.642로 나타났어요.