연구진은 멀티샷 비디오 생성 시 캐릭터, 객체, 장소의 일관성을 평가하는 벤치마크인 EntityBench를 공개했어요. EntityBench는 실제 내러티브 미디어에서 추출한 140개의 에피소드로 구성되어 있으며, 최대 50개의 샷을 포함하고 있어요.
EntityBench는 샷 품질, 프롬프트 준수, 샷 간 일관성을 분리하여 평가하는 세 가지 평가 스위트를 제공하며, 정확한 엔티티 등장만 샷 간 점수에 포함돼요.
EntityMem 시스템은 엔티티별 시각적 레퍼런스를 지속적인 메모리 뱅크에 저장하여 캐릭터 충실도를 높이는 데 기여했으며, 코드와 데이터는 GitHub에서 확인할 수 있어요.