연구진이 LLM의 능동적인 개인화 능력을 평가하기 위해 Ψ-Bench라는 새로운 벤치마크를 발표했어요. Ψ-Bench는 실제 사용자의 성향을 반영한 페르소나를 기반으로 LLM의 설득력을 측정하는 것을 목표로 합니다. 10개의 최첨단 LLM을 평가한 결과, 대부분의 모델이 일관성 있는 주장을 펼치지만, 여전히 개선의 여지가 많다는 것을 확인했어요.
Ψ-Bench는 세 가지 실제 시나리오를 통해 LLM의 설득력을 평가하며, 사용자 프로필을 활용해 페르소나를 구축해요. 사용자 프로필 접근 권한을 제공했을 때 평균 성능이 18.24% 향상된 것으로 나타나 사용자 정보의 중요성을 강조합니다.