Deformba는 이미지 패치를 순서로 변환하는 고정된 스캔 방식의 한계를 극복하기 위해 공간 구조 정보를 동적으로 보완하는 방법입니다. 다중 시점 3D 융합과 같은 작업에서 필요한 쿼리 기반 상호작용을 가능하게 하는 융합 메커니즘을 지원합니다. 이미지 분류, 객체 검출, 3D 시각 인식 등 다양한 시각 인식 벤치마크에서 뛰어난 성능을 보여줍니다.
Deformba는 선형 복잡도를 유지하면서 공간 구조 정보를 동적으로 보완하며, 교차 어텐션과 같은 다중 모드 융합도 지원합니다. 기존의 vision SSM은 수동으로 설계된 고정된 스캔 방식으로 이미지 패치를 순서로 변환하여 미리 정의된 기하 구조를 강제합니다.
연구진은 Deformba의 효과와 일반 적용 가능성을 입증하기 위해 이미지 분류, 객체 검출, 3D 시각 인식 등 다양한 시각 인식 작업에 적용했습니다. 실험 결과 Deformba는 다양한 시각 인식 벤치마크에서 강력한 성능을 달성했습니다.