연구진은 기존 어텐션 구조의 한계를 극복하기 위해 국소 선형 어텐션(LLA)을 제안하고, 이를 확장한 Parallax를 개발했어요. Parallax는 LLA의 수치적 불안정성을 해결하고, 하드웨어 친화적인 알고리즘을 통해 기존 어텐션 방식보다 뛰어난 성능을 냈어요. 0.6B 및 1.7B 규모로 사전 훈련한 결과, Parallax는 기존 모델 대비 우수한 언어 모델 성능을 보였으며, Muon 옵티마이저와의 시너지 효과도 확인했어요.