연구진이 LLM의 연산과 용량을 확장하는 새로운 양방향 블록 아키텍처를 제안했어요. 이 아키텍처는 연산량, 순차 연산 횟수, 용량을 유연하게 확장할 수 있도록 설계됐어요. 실험 결과, 양방향 모델은 동일한 FLOPs 환경에서 기존 모델보다 성능이 우수하고 파라미터 수도 적게 사용했어요.
학습된 게이트는 토큰별 할당을 해석 가능하게 하며, 기능어와 어휘 내용은 넓게, 구두점, 기호, 산술 토큰은 깊게 추세가 있음을 보여줘요. 이 연구는 LLM의 효율적인 확장 가능성을 제시하며, 향후 모델 설계에 중요한 시사점을 제공할 것으로 보입니다.
기존 루프 트랜스포머는 파라미터 효율성을 높이지만 용량 제한이 있었던 반면, 제안하는 양방향 블록은 이러한 단점을 극복하고 성능과 효율성을 동시에 향상시켰습니다.