Pulse · AI 뉴스

토큰 중첩 훈련: LLM 사전 훈련 효율성 2.5배 향상

arXiv cs.CL · 2026-05-08

연구진은 LLM 사전 훈련의 효율성을 높이는 토큰 중첩 훈련(TST) 방법을 제시했습니다. TST는 기존 모델 구조나 데이터, 토크나이저를 수정하지 않고도 FLOP 당 데이터 처리량을 크게 향상시킵니다. 270만~600만 파라미터 모델에서 검증 결과, 동일 손실 설정에서 100억 파라미터 모델의 사전 훈련 시간을 최대 2.5배 단축했습니다.

TST는 먼저 여러 토큰을 묶어 훈련하는 중첩 단계와 표준 훈련으로 되돌리는 복구 단계로 구성됩니다. 이 과정에서 멀티-핫 교차 엔트로피(MCE) 목적 함수를 사용합니다. 연구진은 30억~100억 파라미터 모델에서 TST를 평가하여 다양한 환경에서 높은 안정성을 확인했습니다.

연구 결과, TST는 기존 손실 함수를 능가하는 성능을 보였으며, 다운스트림 평가에서도 우수한 결과를 나타냈습니다.

##LLM##사전훈련##효율성##토큰중첩

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기