SCOLAR는 시각-언어 모델에서 장기 잠재 시퀀스 추론이 성능을 저해하는 현상을 분석하고, 자기 일관성 잠재 추론(Self-COnsistent LAtent Reasoning) 방법을 제안했어요.
SCOLAR는 기존 방법의 정보 획득 감소(Information Gain Collapse) 문제를 해결하고, 의미 없는 시각 토큰을 생성하는 문제를 개선했습니다.
SCOLAR는 30배 이상 장기 잠재 CoT 길이를 확장하고, 오픈 소스 모델 중 최고 성능을 달성하며, 뛰어난 일반화 성능을 보여줬어요.