연구진은 분할 트리 토큰화(ToaST)라는 새로운 토큰화 방법을 제시했어요. ToaST는 기존 방식보다 압축 효율을 극대화하는 방식으로 작동하며, 바이트 n-그램을 활용해 분할 트리를 생성해요.
영어 텍스트에서 ToaST는 40,960 이상의 어휘 크기에서 BPE, WordPiece, UnigramLM보다 토큰 수를 11% 이상 줄여 모델의 효과적인 컨텍스트 길이를 늘려요.
15억 파라미터 언어 모델 학습 실험에서 ToaST는 CORE 점수에서 기존 방식보다 2.6%~7.6% 높은 성능을 보여줬어요.