Pulse · AI 뉴스

APT: 액션 전문가 사전 훈련이 비전-언어-액션 정책의 지시 일반화 능력을 향상시킵니다

xukechun.github.io · 2026-06-10

APT는 비전-언어-액션(VLA) 모델의 OOD 지시 일반화 성능을 개선하는 새로운 방법입니다. 액션 전문가 사전 훈련(Action expert PreTraining)을 강조하는 2단계 훈련 방식인 APT를 제안합니다.

액션 전문가를 비어있는 VLM에서 비전-액션 쌍을 사용하여 VA 사전 훈련시키고, 1단계에서는 언어 불균형을 우회합니다. 2단계에서는 게이트된 퓨전 메커니즘을 통해 VLM 특징을 통합하면서 학습된 시각운동 사전 지식을 보존합니다.

π 및 GR00T 스타일 아키텍처를 포함한 주류 VLA 아키텍처에 APT를 적용할 수 있습니다. 실험 결과, APT는 새로운 지시 및 합성 작업에서 일관된 성능 향상을 달성했습니다.

##VLA##인공지능##사전훈련

매일 핵심 AI 소식을 한국어로, 빠르게