연구진이 로컬 시각-언어-행동 프레임워크인 CoFL-S를 제안했어요. CoFL-S는 로봇의 가시 범위 내 섹터에서 언어 조건부 흐름 필드를 예측하고 이를 롤아웃하여 연속적인 경로를 생성합니다.
기존 VLN-CE 에피소드를 프레임 레벨의 로컬 감독 학습으로 변환하여 CoFL-S를 학습시켰으며, 정렬된 부분 지시사항과 일치하는 행동, 경로, 밀집 흐름 필드 타겟을 활용했어요.
CoFL-S는 연속 시간 Habitat 벤치마크에서 액션 토큰 및 액션 청크 기반 모델보다 우수한 성능을 보였으며, 실제 환경에서도 시뮬레이션보다 뛰어난 성능을 입증했어요.