연구진이 악보 이해를 위한 최초의 기초 비전 모델인 MuSViT(Music Score Vision Transformer)를 공개했어요.
MuSViT는 Masked Autoencoders 방식으로 970만 페이지의 악보 데이터를 사전 학습하여 개발되었으며, 다양한 하위 작업에서 기존 비전 인코더를 능가하는 성능을 보여줬어요.
악보 인식, 음악 기호 감지, 악보 난이도 분류 등 4가지 작업에서 뛰어난 성능을 입증했으며, 특히 frozen 인코더 환경에서 기존 모델보다 우수한 결과를 냈어요.