사용자가 Qwen, Flux Klein 모델에서 스타일 LoRA 학습 시 다양성이 부족한 문제를 겪고 있어요. 동일한 레이아웃, 피사체 배치, 텍스트 배치로 인해 창의적인 변화가 제한되는 현상이에요.
다양한 시도 (sigma rescaling, LoRA 블록 가중치 조작, noise injection 등)를 했지만, 근본적인 해결책을 찾지 못했어요. 특히 distillation/acceleration LoRA를 함께 사용할 때 문제가 심화돼요.
학습 측면에서는 weight decay, caption dropout, LR scheduling, 데이터셋 구성 등을 조정했지만, 균형점을 찾지 못했어요. 9B-20B 모델에서 denoising 과정 초기에 composition이 결정되는 것이 원인으로 추정돼요.
다른 사용자들의 경험 공유를 요청하며, 관련 계약 작업에 관심 있는 사람에게는 DM을 통해 추가 정보를 제공할 예정이에요.