연구진은 Transformer 모델의 다음 토큰 예측과 유용한 상태 저장 기능을 분리하는 '상태 예측 분리 가설'을 제안했어요. 이 가설을 바탕으로 두 개의 계산 스트림을 사용하는 새로운 Transformer 모델을 설계했죠. 실험 결과, 상태 예측 분리는 데이터 및 계산 효율성을 높여 검증 손실을 개선하고 downstream 작업에서 평균 2~3% 성능 향상을 보였어요.
기존 Transformer는 다음 토큰 예측과 상태 저장을 위해 동일한 계산 흐름을 사용하지만, 새로운 모델은 두 기능을 분리하여 성능을 개선하는 데 집중했어요. 설계의 근본적인 차이를 보여주는 광범위한 경험적 분석도 진행되었답니다.
연구 결과, 상태 예측 분리는 잠재적인 혼란 요소를 배제하고 언어 모델링 성능을 향상시키는 중요한 요소임을 입증했어요. 이 연구는 Transformer 모델 설계에 대한 새로운 관점을 제시하며, 향후 언어 모델 연구에 기여할 것으로 기대돼요.