연구진은 비디오 LLM이 기본적인 시각적 인지 능력인 방향 감각을 제대로 인식하지 못하는 현상, 즉 '방향 운동 실명'을 발견했어요. 대부분의 비디오 LLM은 물체가 좌우, 상하로 움직이는 간단한 영상에서 무작위 추론에 가까운 성능을 보였어요. 연구진은 이 문제를 해결하기 위해 MoDirect 데이터셋과 DeltaDirect라는 새로운 학습 방법을 제시했어요.
MoDirect 데이터셋을 활용한 학습과 DeltaDirect 목표 함수를 적용한 결과, 비디오 LLM의 방향 인식 정확도가 25.9%에서 85.4%로 향상됐어요. 특히 DeltaDirect는 실제 환경 데이터 없이도 실제 방향 인식 정확도를 21.9% 향상시켰으며, 기존 비디오 이해 성능에는 영향을 미치지 않았어요.
연구 결과는 비디오 LLM의 시각적 정보 처리 과정에서 발생하는 문제점을 지적하고, 이를 해결하기 위한 구체적인 방법론을 제시하며, 향후 비디오 LLM의 성능 향상에 기여할 것으로 기대돼요.