연구진이 LLM의 어텐션 메커니즘 효율성을 높이는 Parallax를 개발했어요. Parallax는 기존 LLA의 수치적 불안정성을 해결하고, 하드웨어 친화적인 알고리즘을 적용하여 FlashAttention보다 성능을 개선했어요. 0.6B 및 1.7B 규모로 사전 훈련한 결과, perplexity 개선과 downstream 벤치마크 성능 향상을 확인했어요. Muon 옵티마이저가 Parallax의 잠재력을 발휘하도록 돕는 새로운 현상을 발견했어요.