연구진은 시각적 추론을 위해 단일 '단어'(functional token)를 에이전트 연산과 잠재 시각적 추론 단위로 활용하는 ATLAS 프레임워크를 제안했습니다.
ATLAS는 시각적 중간 콘텐츠 생성 없이 기존 SFT 및 RL 훈련과 호환되며, 시각적 감독 없이도 작동하는 시각적 연산을 내부적으로 수행합니다.
LA-GRPO를 통해 RL 훈련 시 functional token의 희소성 문제를 해결하고, 어려운 벤치마크에서 뛰어난 성능과 명확한 해석 가능성을 입증했습니다.