연구진이 Unigram 토크나이저의 복잡한 학습 문제를 해결하기 위해 MinGram을 개발했어요. MinGram은 BPE 기반의 초기 어휘를 활용하고, 간단한 학습 과정을 거쳐 압축률을 높였어요. 6개 언어 테스트 결과, MinGram은 BPE와 기존 Unigram보다 압축 성능이 뛰어났고, 형태소 정렬 능력도 향상됐어요.
MinGram은 토큰 개수를 주요 목표로 삼고, Unigram 점수를 동점 시 파기 기준으로 사용해 압축 효율성을 높였어요. 기존 Unigram 토크나이저와 달리 복잡한 학습 과정을 생략해 토크나이저 추론에 필요한 작업만 수행해요. 언어 모델 학습 시 MinGram은 BPE보다 높은 성능을 보여줬어요.