연구진은 토큰화 문제를 해결하는 토큰화 불필요 계층 모델의 압축률 최적화 방안인 ATDC(Adaptive Targeted Dynamic Chunking)를 제안했어요.
ATDC는 커리큘럼 학습을 활용해 학습 과정에서 압축률을 점진적으로 조절하며, 목표 압축률과 BPIC(Bytes-Per-Innermost-Chunk) 간의 관계를 분석했어요.
FineWeb-Edu 100B 데이터셋 평가 결과, ATDC를 적용한 계층 모델은 기존 방식과 유사한 BPB(Bits-Per-Byte) 성능을 보였고, 다양한 작업에서 더 안정적인 학습과 우수한 성능을 보여줬어요.