연구진은 시각적 지시 튜닝(VIT)의 훈련 방식과 평가 방식 간 불일치 문제를 지적했어요. VIT는 여러 언어 작업을 하나의 이미지에 묶어 다중 턴 훈련을 하지만, 기존 벤치마크는 단일 턴 시나리오로 평가돼요. StochasT는 확률적 턴 깊이(Stochastic Turn Depth)를 활용해 이미지에 대한 언어 작업을 다양한 크기의 클러스터로 묶는 방식을 제안했어요.
StochasT는 ResNet의 드롭아웃과 확률적 깊이에서 영감을 받았지만, 데이터를 최대한 활용하기 위해 실제로 아무것도 삭제하지 않아요. 연구진은 균형 잡힌 라틴 제곱을 기반으로 한 새로운 평가 메커니즘을 도입해 LVLM의 강건성을 측정했어요.
실험 결과, StochasT는 LVLM이 단일 턴과 다중 턴 모두에서 강력한 성능을 발휘하도록 돕는 것으로 나타났어요.