연구진은 재즈 표준 인식 문제를 연구했어요. 재즈 트리오 데이터베이스의 일부를 활용해 Harmonic CNN과 사전 훈련된 음악 모델을 비교했어요. 사전 훈련된 임베딩은 뛰어난 성능을 보이지만 연주자에 민감한 단점이 있어요.
연구 결과, 처음부터 훈련한 스펙트로그램 모델은 훈련 성능에 과적합되는 경향이 있는 반면, 사전 훈련된 임베딩은 더 나은 결과를 제공해요. 연주자 식별에 따른 민감도는 경량 대비 프로젝션으로 일부 완화 가능해요.
연구진은 재즈 표준 인식을 음악 표현 모델의 스트레스 테스트로 활용하고, 검색 기반 표준 식별을 위한 단계로 제시했어요.