연구진이 다양한 사용자 선호도를 반영하는 개인화된 에이전트 강화 학습 프레임워크를 제안했어요. PARPO라는 핵심 기술을 통해 일반적인 작업 품질 보상과 개인화된 선호도 보상을 분리하고, 사용자별 앵커를 활용해 학습을 안정화했어요.
개인화된 감독과 선호도 기반 기술 검색을 위해 두 단계로 구성된 선호도 분리 보상 모델과 PSGM을 도입했어요. 이를 통해 선호도 식별, 정책 최적화, 구조화된 기술 축적의 폐쇄 루프를 형성했어요.
ETAPP, ETAPP-Hard, SJAgent 실험 결과, 제안하는 프레임워크가 강력한 메모리 및 강화 학습 기준 성능을 꾸준히 능가하는 것으로 나타났어요. 관련 코드와 데이터는 추가 자료에서 확인할 수 있어요.