연구진은 시각적 증거를 기반으로 하는 체인 오브 씽킹(Chain-of-Thought) 패러다임인 RoboPIN을 제안했어요.
RoboPIN은 각 추론 단계를 시각적 증거에 고정하는 Reasoning Anchor를 도입하여, 모델이 여러 단계의 추론 과정에서 시각적 정보를 일관성 있게 유지하도록 돕습니다.
RoboPIN은 14개의 벤치마크에서 4B 파라미터로 7B 수준의 기존 모델보다 평균 12%의 성능 향상을 달성하며, 시각적 Grounding 정확도와 단계 간 일관성을 개선했습니다.