연구진은 LLM을 활용해 실제 사용자처럼 반응하는 사용자 시뮬레이터 학습 방법을 제시했어요. 기존 방식은 정답 응답을 맞추는 데 집중했지만, 새로운 방법은 튜링 테스트 기반 강화 학습({Turing-RL})을 사용해요. 두 가지 분야(챗봇, Reddit 포럼)에서 기존 방식보다 LLM과 인간 평가 모두에서 성능이 우수했어요.
Turing-RL은 LLM 판별기를 활용해 생성된 응답과 실제 사용자 응답을 얼마나 구별하기 어려운지 평가하는 튜링 테스트 기반 보상 체계를 사용해요. 사용자 시뮬레이터 LLM은 이 보상을 통해 실제 사용자가 말했을 법한 응답을 생성하도록 학습돼요.
연구 결과, 응답 일치보다 구별 불가능성을 최적화하는 것이 사용자 시뮬레이터 학습에 효과적임을 확인했어요. 이 방법은 에이전트 어시스턴트 훈련, 개인화 시스템 평가, 사회 과학 연구 등에 활용될 수 있어요.