본 연구는 시청각 클래스 인크리멘털 학습(CIL) 환경에서 SAM-Audio의 사전 학습된 지식을 활용하는 새로운 방법을 제시합니다. SAM-Audio의 오디오 및 시각적 표현을 활용하고, 오디오 특징이 시각적 표현을 안내하는 가이드 어텐션 전략을 도입했습니다. 기존 방법 대비 성능을 향상시키기 위해 특징 및 로짓 레벨에서 이중 증류 목표를 사용했습니다.