Pulse · AI 뉴스

텍스트와 이미지 연동: 장기 로봇 조작을 위한 시각-언어 추론

arXiv cs.AI · 2026-05-01

연구진은 장기 로봇 조작을 위해 텍스트 목표와 시각적 프레임 간의 연동 추론(IVLR) 프레임워크를 개발했습니다. IVLR은 전체 작업 범위를 통해 텍스트 하위 목표와 시각적 프레임을 번갈아 가며 사용하는 명시적 중간 표현인 'trace'를 활용합니다.

IVLR은 기존 방식과 달리 텍스트와 시각 정보를 결합하여 인과 순서와 공간 제약 조건을 모두 고려하며, 시뮬레이션 환경에서 LIBERO-Long 작업의 성공률을 92.4%까지 끌어올렸습니다.

연구 결과는 trace가 로봇 조작 계획의 핵심 요소이며, 텍스트 또는 시각 정보만으로는 장기적인 성공을 달성하기 어렵다는 것을 보여줍니다.

##로봇##인공지능##조작##시각##언어

매일 핵심 AI 소식을 한국어로, 빠르게