LightAVSeg은 오디오-비디오 분할(AVS)을 위한 경량 프레임워크로, 기존 모델의 높은 계산 비용 문제를 해결합니다. 본 연구에서는 어텐션 대신 분리된 설계 방식을 도입하여 상호 작용 비용을 공간 해상도에 따라 선형적으로 조정했습니다. LightAVSeg은 2050만 개의 파라미터로 MS3 벤치마크에서 50.4 mIoU를 달성하며, 모바일 프로세서에서도 효율적인 추론이 가능합니다.