VLA 모델은 로봇 AI 분야에서 빠르게 주류로 자리 잡고 있지만, 기술적인 이해는 부족한 경우가 많아요. OpenVLA, RT-2, π0, GR00T와 같은 최신 VLA 시스템이 어떻게 시각/언어 입력을 로봇 행동으로 변환하는지 기술적으로 자세히 설명해요. 토큰화된 자기 회귀 행동, 확산 기반 행동 헤드, 플로우 매칭 정책 등 주요 행동 디코딩 방식을 다루고 있어요.