Reddit 커뮤니티에서 MTP(Mixture of Tokenized Predictions)가 코딩에서는 효과적이지만 일반 텍스트에서는 성능이 떨어진다는 의견이 나왔어요. 이는 기존 토크나이저가 코드의 특징을 제대로 반영하지 못하기 때문일 수 있다는 분석이에요. 코드에 최적화된 토크나이저 개발을 통해 MTP 의존성을 줄이는 방안이 모색될 수 있습니다.
기존 토크나이저는 일반 텍스트에 맞춰 튜닝되어 코드에서 흔히 나타나는 예측 가능한 토큰 시퀀스를 제대로 처리하지 못한다는 지적이 있어요. Frontier 모델처럼 토큰당 요금을 부과하는 모델은 토크나이저 개선에 소극적일 수 있다는 우려도 제기됐습니다.
코드에 최적화된 토크나이저를 사용하면 MTP 없이도 모델 성능을 향상시킬 수 있을 것으로 기대되며, MTP가 잘 작동하지 않는 모델의 토크나이저를 분석하는 것도 도움이 될 수 있습니다.