사용자가 3만 장의 고품질 사진 데이터셋을 Ideogram 또는 ZIT 모델 학습에 활용하고 있습니다. 자연어 캡션과 JSON 형식 캡션 두 가지 버전이 준비되어 있습니다. 학습 설정 최적화에 어려움을 겪고 있어, 유사한 경험이 있는 사용자의 설정 공유를 요청했습니다.
ZIT 모델의 경우, LORA와 Full Finetune 모두 2만 스텝, 1e4 LR에서도 수렴하지 못하고 있습니다. Ideogram 모델은 샘플링 결과가 왜곡되고 노이즈가 심하게 발생하는 문제가 발생하고 있습니다.
AI Toolkit을 사용 중이며, 다양한 Learning Rate, Optimizer, Resolution, Batch Size, Steps, Train Unet, Cache Text Embeddings, Differential Guidance, Low VRAM 등의 설정을 시도했지만 만족스러운 결과를 얻지 못했습니다.