Pulse · AI 뉴스

ToaST: 분할 트리 토큰화를 이용한 효율적인 토큰화 방법

ToaST · 2026-05-22

연구진은 분할 트리 토큰화(ToaST)라는 새로운 토큰화 방법을 제시했어요. ToaST는 기존 방식보다 압축 효율을 극대화하는 방식으로 작동하며, 바이트 n-그램을 활용해 분할 트리를 생성해요.

영어 텍스트에서 ToaST는 40,960 이상의 어휘 크기에서 BPE, WordPiece, UnigramLM보다 토큰 수를 11% 이상 줄여 모델의 효과적인 컨텍스트 길이를 늘려요.

15억 파라미터 언어 모델 학습 실험에서 ToaST는 CORE 점수에서 기존 방식보다 2.6%~7.6% 높은 성능을 보여줬어요.

##토큰화##압축##언어모델##ToaST##효율성

매일 핵심 AI 소식을 한국어로, 빠르게