Pulse · AI 뉴스

잠재 시각적 추론을 저해하는 요인은 무엇인가?

arXiv cs.CL · 2026-05-18

연구진은 인간의 시각적 문제 해결 방식에서 영감을 받아 연속적인 잠재 토큰을 활용한 시각적 상상 단계의 체인 오브 씽킹 추론을 연구했어요.

놀랍게도, 잠재 토큰을 의미 없는 '더미' 토큰으로 대체해도 모델 정확도에 영향을 미치지 않아 잠재 토큰이 모델 예측에 미치는 인과적 역할이 미미한 것으로 나타났어요.

연구 결과, 기존 데이터셋의 오라클 잠재 토큰은 원본 이미지 외에 추가 정보를 거의 제공하지 않아 모델이 훈련 및 추론 시 무시하고 있으며, 추론 시 생성되는 잠재 토큰은 오라클 표현과 편차를 보여 잠재적 이점을 저해하고 있어요.

향후 잠재 시각적 추론의 발전은 정보성 중간 단계를 갖춘 고품질 데이터셋과 더 정확한 잠재 토큰 예측에 달려 있어요.

##시각적추론##잠재토큰##Vision-LanguageMode
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기