연구진이 리만 최적화 기법을 활용하여 저랭크 행렬 파라미터의 성능을 분석했어요. 멀티헤드 어텐션 파라미터에 적용한 결과, AdamW 기준선에 비해 뚜렷한 성능 향상을 보이지 않았어요. 관련 구현체는 온라인에서 확인할 수 있어요.
리만 기하학 기반 최적화 기법은 랭크-$r$ 행렬, 부분 등각선, 블록 행렬 등 다양한 변형을 포함하며, 이들의 블록 행렬 변형도 연구 대상에 포함됐어요. 연구는 소규모 언어 모델의 멀티헤드 어텐션 파라미터에 적용됐어요.
학습률을 조정했음에도 불구하고, 리만 최적화 기법은 AdamW 기준선에 비해 뚜렷한 성능 향상을 보여주지 못했지만, 관련 구현체는 온라인에서 공개돼 향후 연구에 기여할 수 있을 것으로 기대돼요.