DeepSeek의 DS4 Flash/Pro 모델처럼 MTP(Multi-Token Prediction) 방식으로 학습된 모델의 중간 예측 헤드가 독립적인 소형 모델로 활용될 수 있는지에 대한 질문이 Reddit에 올라왔어요.
MTP 방식은 대형 모델 내부에서 사용되지만, MTP 헤드를 추출하여 파라미터 수를 줄인 독립적인 모델로 사용할 수 있는지에 대한 가능성을 탐색하고 있어요.
Reddit 사용자는 향후 MTP 방식을 사용하는 모델의 중간 예측 헤드를 활용할 수 있는지 궁금해하며, 이는 소형 모델 개발에 새로운 가능성을 제시할 수 있다고 제안했어요.