연구진은 감정 상태에 따라 음악을 추천하는 AMRS 시스템을 개발했어요. 이 시스템은 노인 환자 등 임상 사용자에게 적용되며, 온라인 실험 윤리적 제약 문제를 해결하기 위해 롤아웃 기반 세계 모델을 활용해요.
세계 모델은 청취 데이터 기반으로 참여도, 평점, 자가 보고 긍정/흥분도를 예측하며, 오프라인 정책 훈련 시뮬레이터와 배포 전 스트레스 테스트 도구로 활용돼요.
행동 복제 기반 추천 정책은 DPO를 통해 다중 목표 유틸리티 함수에 맞춰 미세 조정되며, 예측 긍정/흥분도를 개선하고 다양성을 유지하며, 데이터 분포 붕괴를 방지해요.