GRAMformer: 임의 순서의 다중 모드 상호 작용을 위한 볼륨 기반 다중 모드 교차 어텐션
GRAMformer · 2026-06-04
GRAMformer는 트랜스포머 기반 다중 모드 모델에서 임의 순서의 모드 상호 작용을 모델링하는 새로운 아키텍처입니다. 기존 방식의 한계를 극복하기 위해 볼륨 기반 다중 모드 교차 어텐션(VMA)을 도입하여 쿼리와 키 벡터 간의 볼륨을 계산합니다. VMA는 다양한 다중 모드 학습 작업에서 효과적이고 효율적인 성능을 보였습니다.