연구진은 Mixture-of-Experts (MoE) 레이어 내에서 가중치 델타를 생성하여 다른 전문가의 가중치를 수정하는 '파라미터 업데이트 전문가'라는 새로운 아키텍처 개념을 소개했어요.
DeltaNet-LoRA라는 프로토타입을 통해 MoE 내에서 지속적인 가중치 델타 생성이 가능함을 입증했으며, OLMoE-1B-7B 모델에서 54.0%의 지속적인 정확도를 달성했어요.
연구 결과는 파라미터 업데이트 전문가 아키텍처의 핵심 메커니즘이 실제 사전 훈련된 MoE에서 확장 가능함을 보여주지만, 완전한 설계 목표는 아직 달성되지 않았어요.