독립 연구자 MrAddams_LibraLogic가 새로운 훈련 방식 'Native Factorized Weights (NFW)' 연구 결과를 공유하며 arXiv 게재를 위해 도움을 요청했어요. NFW는 선형 레이어 초기화 시 W = V·Uᵀ 형태로 구성하여 훈련하는 방식으로, 기존 방식 대비 매개변수 수를 줄이고 성능을 향상시킬 수 있어요.
연구에 따르면 훈련 코퍼스에 따라 최적의 랭크(r*)가 결정되며, 이 랭크를 벗어나면 모델이 데이터를 암기하기 시작하여 검증 손실이 증가해요. 최적 랭크 범위 내에서 훈련하면 기존 방식 대비 더 적은 매개변수로도 뛰어난 성능을 낼 수 있어요.
NFW 방식은 노이즈 감소와 암기 방지 효과를 동시에 제공하며, 훈련 코퍼스의 정보량에 따라 최적의 랭크가 결정된다는 점이 특징이에요. GitHub 저장소에 코드와 결과 JSON 파일이 공개되어 있으며, 연구 결과 재현 및 검증을 위한 도움을 요청했어요.