MAOAM은 객체와 재료를 텍스트 또는 클릭 기반 상호작용으로 선택할 수 있는 통합 프레임워크입니다. 기존 VLM 기반 선택 방법은 객체 중심적이며 단일 상호작용 모드만 지원하는 한계가 있습니다.
MAOAM은 VLM과 분할 헤드를 활용하여 사용자 프롬프트에서 정확한 픽셀 마스크를 생성하며, 재료 선택 데이터셋 부족 문제를 해결하기 위해 시각-언어 모델을 활용한 데이터 생성 파이프라인을 제안합니다.
텍스트와 클릭 기반 선택 모두에 대한 멀티태스크 학습을 통해 다양한 객체, 재료, 상호 작용 시나리오에서 정확하고 일관된 선택을 가능하게 합니다.
텍스트와 클릭을 결합하여 추론 시 선택 성능이 향상되는 현상이 나타나 유연한 이미지 편집 워크플로우를 지원합니다.