연구진은 자연어 프로필에 따른 캐릭터를 충실히 묘사하는 일반적인 역할 연기 에이전트 개발의 어려움을 지적했어요. Psy-CoT 프레임워크는 상호작용 인지, 심리적 공감, 논리적 구성의 세 단계로 분해하여 모델이 프로필에 기반해 동적으로 사고하도록 설계됐어요. Role-Aware Policy Optimization (RAPO)은 프로필-토큰 상호 정보량을 활용해 역할에 맞는 토큰에 더 큰 가중치를 부여하여 모델의 역할 충실도를 높였어요.