연구진은 가상 현실 게임과 인터랙티브 내러티브 등 몰입형 애플리케이션에 적합한 비디오 기반 역할극 대화 모델을 연구했어요. EBM-RL 프레임워크는 시각적 단서에 주목하고, 내부 해석을 형성한 후 상황에 맞는 대화를 생성하도록 설계되어 인간과 유사한 감각적 기반을 촉진해요. EBM-RL은 텍스트 기반 역할극 기준선과 더 큰 규모의 시각-언어 모델보다 성능이 뛰어나며, 시각적 분위기 일관성과 캐릭터 진정성 모두에서 향상된 결과를 보여줬어요.