inclusionAI가 Qwen3.5 9B 기반으로 GUI 기반 시각-언어 모델 VISTA 9B와 4B를 공개했어요. VISTA 모델은 스크린샷과 자연어 명령을 기반으로 GUI 내 클릭 좌표를 예측하는 방식으로 작동해요. 뷰 일관성 GRPO 훈련과 자체 검증된 교차 뷰 앵커링 기술을 활용하여 정확한 좌표 예측을 가능하게 해요.