본 연구는 Transformer 모델에서 데이터 표현 방식(바이트, 문자, 서브워드 토큰)이 예측 성능에 미치는 영향을 분석합니다. 작은 단위로 표현하면 컨텍스트 창을 늘려도 예측 성능이 저하되는 '단편화' 현상을 규명했습니다. 서브워드 토큰화 모델과 비교했을 때 바이트/문자 모델의 성능 차이를 이론적으로 설명합니다.
연구는 서브워드 토큰화 방식이 짧은 토큰 창을 더 긴 컨텍스트 창처럼 작동하게 만들 수 있음을 보여줍니다. 토큰 창이 필요한 소스 이력을 얼마나 안정적으로 포함하는지에 따라 성능 보장이 가능하며, 토크나이저 진단 도구를 제시합니다.
본 연구는 Transformer 모델의 표현 방식 선택에 대한 정보 이론적 프레임워크를 제시하여, 컨텍스트 정보 활용에 대한 이해를 높이고 모델 설계에 기여할 수 있습니다.