Pulse · AI 뉴스

PAWS: 어드밴티지 가중 세그먼트 기반 선호 학습

arXiv cs.LG · 2026-06-10

연구진은 인간의 경로 비교를 통해 정책을 학습하는 선호 기반 강화 학습(PbRL)의 문제점을 분석했어요. 기존 방식의 학습과 최적화 불일치로 인한 시간 신용 할당 문제를 해결하기 위해 세그먼트 기반 선호 학습 방법인 PAWS를 제안했어요. PAWS는 세그먼트 수준의 어드밴티지 함수를 활용하여 정책을 업데이트해 경로 수준의 선호 정보를 유지하고 신뢰할 수 없는 단계별 학습 신호를 피합니다.

##강화학습##선호학습##PbRL##PAWS

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기