Pulse · AI 뉴스

다양한 오디오 분류를 위한 계층 인식 프레임워크

CLAP · 2026-07-02

이 기술 보고서는 DCASE 2026 챌린지 Task 1에 대한 시스템을 설명합니다. 이 챌린지는 광범위한 사운드 분류(BST)에 따라 다양한 오디오 녹음을 분류하는 것을 목표로 합니다.

CLAP 기반 오디오-텍스트 표현을 기반으로 구축된 시스템은 훈련 데이터 세트 확장, 특징별 브랜치로 음향 모델링 강화, 계층 인식 분류기 및 KNN 기반 후처리 사용이라는 세 가지 전략을 통해 개선되었습니다.

최상의 단일 시스템은 KNN 기반 후처리를 통해 BSD10k-v1.2 세트에서 계층적 F1 점수(Hier. F1) 80.84%를 달성했습니다.

##오디오분류##DCASE2026##CLAP

매일 핵심 AI 소식을 한국어로, 빠르게