Pulse · AI 뉴스

자유 형식 선호 학습을 통한 로봇 조작

Freeform Preference Learning · 2026-07-01

연구진은 장기 조작 작업에서 희소 성공 라벨의 한계를 극복하기 위해 Freeform Preference Learning(FPL)이라는 새로운 방법을 제시했어요. FPL은 사용자가 속도, 안전, 배치 품질 등 자연어 선호축을 정의하고, 각 축에 따른 쌍대 비교 선호도를 제공하는 방식이에요. 이를 통해 여러 차원의 인간이 지정한 목표에 맞춰 정책을 최적화하는 보상 조건부 정책을 학습할 수 있어요.

실제 및 시뮬레이션 환경에서 FPL은 희소 보상 및 이진 선호 학습 방법보다 38% 향상된 성능을 보였으며, 명시적인 하위 작업 분할 없이 밀집된 진행 신호를 학습하고 행동의 조합성을 보여주었어요. 또한, 재학습 없이 테스트 시간에 정책을 다양한 행동으로 조정할 수 있다는 장점이 있어요.

연구 결과는 GitHub에서 확인할 수 있는 블로그 게시물과 함께 공개되었으며

##로봇##머신러닝##강화학습##인공지능

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기