연구진은 장기 조작 작업에서 희소 성공 라벨의 한계를 극복하기 위해 Freeform Preference Learning(FPL)이라는 새로운 방법을 제시했어요. FPL은 사용자가 속도, 안전, 배치 품질 등 자연어 선호축을 정의하고, 각 축에 따른 쌍대 비교 선호도를 제공하는 방식이에요. 이를 통해 여러 차원의 인간이 지정한 목표에 맞춰 정책을 최적화하는 보상 조건부 정책을 학습할 수 있어요.
실제 및 시뮬레이션 환경에서 FPL은 희소 보상 및 이진 선호 학습 방법보다 38% 향상된 성능을 보였으며, 명시적인 하위 작업 분할 없이 밀집된 진행 신호를 학습하고 행동의 조합성을 보여주었어요. 또한, 재학습 없이 테스트 시간에 정책을 다양한 행동으로 조정할 수 있다는 장점이 있어요.
연구 결과는 GitHub에서 확인할 수 있는 블로그 게시물과 함께 공개되었으며