Pulse · AI 뉴스

로봇 조작 명령 생성을 위한 객체 중심 비디오 이해 기술

arXiv cs.CV · 2026-06-15

연구진이 비디오 데모를 실행 가능한 로봇 명령으로 변환하는 새로운 프레임워크를 제안했어요. 기존 방식의 한계를 극복하기 위해 동작 인식과 객체 식별을 분리하는 객체 중심 접근 방식을 사용합니다.

Temporal Shift Module(TSM)과 새로운 객체 선택 알고리즘을 결합하여 작업 관련 객체를 식별하고, Vision-Language Model(VLM)을 활용해 카테고리를 인식하고 제로샷 일반화 성능을 높였어요.

Something-Something V2 데이터셋 평가 결과, 기존 방식 대비 80.2%~171.7% 성능 향상을 보였으며, 일반적인 VLM과 경쟁하거나 능가하는 결과를 얻었어요.

##로봇##비디오##인공지능##객체인식

매일 핵심 AI 소식을 한국어로, 빠르게