Peifeng Zhang 등 연구진이 시각 질의 응답(VQA) 지속 학습 모델의 비대칭 구조 문제를 해결하기 위해 'AIM(Asymmetric Information Masking)' 기법을 제안했어요. 기존 방식의 글로벌 규제가 언어 디코더에 치중되어 시각적 정보 처리 레이어가 손상되는 문제를 개선합니다.
AIM은 모달리티별 민감도에 따라 타겟 마스크를 적용하여 모델의 안정성과 적응력을 동시에 확보하며, VQA v2와 GQA 환경에서 기존 방식 대비 뛰어난 성능을 보여줬어요.
연구 결과는 ACM MM 2026에 제출되었으며, 새로운 기술은 평균 성능(AP)과 평균 망각(AF) 모두에서 최고 수준의 결과를 달성하며, 새로운 기술 조합에 대한 일반화 능력도 향상시키는 것으로 나타났어요.