연구진은 시각 표현 학습 분야에서 강한 가정 없이도 모델을 학습하는 Temporal Difference in Vision (TDV) 방법을 제시했어요. TDV는 영상 데이터를 활용해 과거가 미래를 유발한다는 인과 관계 가정에 기반하며, 기존 방식의 강한 편향성을 없쌤어요. 이미지 인코더와 모션 인코더를 함께 훈련시켜 현재 프레임과 모션 정보를 통해 다음 프레임을 예측하는 방식으로 작동해요.
TDV는 기존 방식의 강한 편향성을 없쌤음에도 불구하고, 공간 정보 처리 성능은 최고 수준에 버금가는 결과를 보여줬어요. 이는 데이터 규모가 커질수록 강한 편향성이 오히려 성능 저하를 유발한다는 기존 연구 결과와도 일치해요.
TDV는 기존 방식의 강한 가정 없이도 시각 표현 학습이 가능하다는 것을 보여주며, 앞으로 더욱 발전된 모델 개발의 토대가 될 것으로 기대돼요.