연구진이 Attention Residuals의 한계를 극복하기 위해 Multi-Gate Residuals (MGR)를 제안했어요. MGR은 추가 통신 부담 없이 활성화 스케일을 안정화하는 방식으로 작동해요. Scoring 및 게이팅 메커니즘과 Attention Pooling을 활용하여 다중 스트림 컨텍스트를 유지하고 숨겨진 상태를 추출해요.
실험 결과, MGR은 대규모 학습 및 배포에 실용적이며 기존 아키텍처보다 성능이 향상된 것을 확인했어요. 통신 오버헤드 없이 활성화 스케일을 안정화하는 데 효과적이에요.
MGR은 기존 아키텍처의 성능을 개선하고 대규모 학습 및 배포에 적합한 새로운 Residual Layer 기술이에요.