mikayahlevi 사용자가 고차원 동적 회전 위치 임베딩 (HDD-RoPE) 알고리즘을 개발하고 TinyStories 데이터셋에서 검증 손실 수렴 속도가 기존 방식보다 빠르다는 결과를 발표했어요.
HDD-RoPE는 위치 정보를 다차원적으로 표현하여 토큰이 문장 내 특정 위치뿐 아니라 문단이나 문장 내에서도 위치를 가질 수 있다고 가정하는 방식이에요.
GitHub 저장소에서 수학적 배경과 아키텍처 세부 사항을 확인할 수 있으며, 데이터에 따라 회전량을 조절하여 레이어 활성화 정보를 기반으로 위치를 학습하도록 설계됐어요.