Pulse · AI 뉴스

Photoroom, 24시간 만에 텍스트-이미지 모델 훈련 성공

Hugging Face · 2026-03-04

Photoroom 팀이 24시간 동안 32개의 H200 GPU를 사용하여 텍스트-이미지 모델을 훈련하는 '속도 경쟁'을 진행했습니다.

이번 훈련에는 기존에 검증된 다양한 기술적 트릭들을 결합하여 적용했으며, 512px 해상도에서 시작하여 1024px로 미세 조정했습니다.

텍스트-이미지 모델 훈련에 사용된 코드와 실험 프레임워크를 GitHub을 통해 공개했으며, LPIPS와 DINO 기반의 인지적 손실을 추가하여 품질을 향상시켰습니다.

TREAD를 사용하여 토큰 라우팅을 구현하고, REPA와 DINOv3를 활용하여 표현을 정렬하는 등 다양한 기술을 적용했습니다.

이번 속도 경쟁은 딥러닝 모델 훈련 비용이 과거에 비해 크게 낮아졌음을 보여주는 사례이며, 향후 대규모 훈련 레시피의 기반이 될 것으로 예상됩니다.

##텍스트이미지##디퓨전모델##모델훈련

매일 핵심 AI 소식을 한국어로, 빠르게