연구진이 NarrativeWorldBench라는 새로운 벤치마크를 공개하며, 21개의 LLM 모델을 평가해 장기 오디오 드라마 제작에 어려움을 확인했어요. N-VSSM이라는 새로운 모델은 기존 모델보다 낮은 컴퓨팅 비용으로 더 긴 에피소드까지 일관성을 유지하며, 작가들이 Claude Opus 4.5보다 선호하는 결과를 보여줬어요. 이 모델은 4개 인도어 언어에 대한 평가도 지원하며, 문화적 차이를 고려한 번역 기능도 제공돼요.
NarrativeWorldBench는 9가지 스토리 구조 지표를 다양한 길이(10~200 에피소드)로 평가하며, 기존 LLM 모델들은 200 에피소드 이후 성능이 급격히 저하되는 것을 확인했어요. N-VSSM은 Mamba-2 백본을 기반으로 256차원의 잠재적 세계 상태를 유지하며, 기존 모델 대비 4배 낮은 컴퓨팅 비용으로 0.84 이상의 플롯 비트 F1 점수를 달성했어요.
N-VSSM은 작가들이 컨트롤하기 쉽고, 장기적인 스토리 일관성을 유지하는 데 효과적이며, 12명의 전문 작가 대상 테스트에서 Claude Opus 4.5보다 71% 더 높은 선호도를 기록했어요. 또한, 문화적 차이를 고려한 번역 기능은 Likert 척도에서 +0.20~+0.23점의 향상을 가져왔어요.