연구진이 역할 연기 LLM의 캐릭터 일관성 평가를 위한 새로운 벤치마크 ArcANE을 발표했어요. ArcANE은 17개 소설의 80개 주요 캐릭터를 대상으로, 캐릭터의 심리적 변화를 반영하는지 평가해요. 소설 내용 외 상황에서도 캐릭터 아크를 고려한 컨텍스트 전략이 가장 효과적이었으며, ArcANE-8B/32B 모델을 통해 성능을 더욱 향상시켰어요.
기존 벤치마크는 사실 정보 기억을 측정했지만, ArcANE은 캐릭터의 심리적 변화에 따른 반응 일관성을 평가해요. 특히 소설 내용에 없는 상황에서 캐릭터 아크를 고려한 컨텍스트 전략의 효과가 두드러졌어요.