PairAlign은 오디오 토큰화를 위한 새로운 프레임워크로, 시퀀스 수준의 자기 정렬을 통해 토큰화합니다. 이 프레임워크는 음성을 연속적인 조건으로 매핑하고, 토큰 식별, 순서, 길이, EOS 위치를 학습하는 데 사용됩니다.
PairAlign은 VQ 스타일 토큰화에서 시작하여 EMA-teacher 타겟, 교차 페어드 티처 포싱, 접두사 손상, 가능도 대비, 길이 제어 등의 기술을 활용하여 개선합니다.
TIMIT 검색에서 PairAlign은 편집 거리 검색을 유지하면서 아카이브 토큰 수를 55% 줄이고, 3초 음성에서 콤팩트하고 비퇴화된 시퀀스를 학습합니다.