KIT가 IWSLT 2026 장문 및 단문 음성 지시 따르기 트랙에 제출했어요. 단일 작업 모델이 자연어 프롬프트에서 작업과 대상 언어를 추론하는 지시 기반 시스템으로 진화하면서 새로운 과제가 도입됐어요.
단문 코퍼스를 분할 연결, LLM 기반 라벨 생성, 교차 언어 번역을 통해 6개 작업, 4개 언어에 걸쳐 100만 개 이상의 인스턴스를 생성하는 데이터 증강 파이프라인을 활용했어요.
우리는 음성 처리된 분할된 오디오에서 생성된 후보를 선택하는 오류 모드를 해결하기 위해 likelihood와 Minimum Bayes Risk 디코딩을 결합하여 likelihood 기반 재순위 방식의 문제점을 개선했어요.