Pulse · AI 뉴스

픽셀에서 토큰으로: 시각-언어-행동 모델을 위한 잠재적 행동 감독 연구

arXiv cs.CV · 2026-05-06

본 연구는 시각-언어-행동(VLA) 모델의 잠재적 행동 감독 방식을 체계적으로 분석합니다. 이미지 기반 잠재적 행동은 장기적인 추론과 장면 수준 일반화에 유리하며, 행동 기반 잠재적 행동은 복잡한 운동 조절에 효과적입니다. 연구 결과, 이산적인 잠재적 행동 토큰으로 VLM을 직접 감독하는 것이 가장 효과적인 성능을 보였습니다.

연구에서는 이미지 기반과 행동 기반 잠재적 행동 감독 방식의 상관관계를 밝혀냈으며, 혼합 데이터 환경에서의 잠재적 행동 감독의 이점을 제시합니다. GitHub 저장소에서 관련 코드를 확인할 수 있습니다.

VLA 모델의 일관성 있는 모델링을 위해 잠재적 행동을 활용하는 다양한 접근 방식을 비교 분석하고, 새로운 통합 전략을 제안했습니다.

##VLA##잠재적행동##모델감독##시각언어##연구
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기