연구진은 Transformer 모델의 다음 토큰 예측과 유용한 상태 저장 기능을 분리하는 '상태 예측 분리 가설'을 제안했어요. 이 가설을 바탕으로 두 개의 계산 스트림을 사용하는 새로운 Transformer 모델을 설계했죠. 실험 결과, 상태 예측 분리는 데이터 및 계산 효율성을 향상시켜 검증 손실을 줄이고 다운스트림 작업에서 평균 2~3% 성능을 향상시켰어요.
새로운 모델은 기존 Transformer 모델보다 더 나은 성능을 보였으며, 설계의 근본적인 차이를 보여주는 광범위한 실증 분석도 진행됐어요. 연구진은 잠재적인 혼란 요인을 배제하고 설계의 효과를 입증했죠.
이 연구는 Transformer 모델의 설계에 대한 새로운 통찰력을 제공하며, 향후 언어 모델 개발에 중요한 기여를 할 것으로 기대돼요.