본 연구는 LoRA 어댑터의 B 행렬에서 학습 가능한 파라미터 $k$개를 배치할 때, 어떤 위치에 놓느냐가 성능에 영향을 미치는지를 분석합니다.
지도 학습에서는 무작위 배치와 정보 기반 배치가 비슷한 성능을 보이지만, GRPO 학습에서는 무작위 배치는 성능 향상에 실패하고 정보 기반 배치는 일반적인 LoRA 정확도를 회복합니다.
연구 결과, 중요한 파라미터는 주로 잔차 스트림-쓰기 투영(V, O, Down)에 집중되어 있으며, 모델 패밀리와 규모(1.5B - 8B)에 관계없이 안정적인 경향을 보입니다.