연구진은 확산 트랜스포머(DiT) 강화 학습(RL) 사후 훈련 비용을 줄이는 시스템 'Spotlight'을 개발했어요.
Spotlight는 시드 탐색이 이전 반복 모델 가중치에서 상대적 순위를 보존하므로 유휴 Spot GPU에서 탐색을 실행할 수 있다는 점을 활용해요.
또한 시퀀스 병렬성(SP) 재구성이 노드 내 상태를 재사용하여 분단 복구를 몇 분에서 초 단위로 단축할 수 있다는 점을 발견했어요.
Spotlight은 DeepSeek-OCR 및 Geneval 데이터셋에서 이미지 품질을 향상시키면서 총 비용을 1.4~6.4배 절감하고 검증 점수를 4배 빠르게 달성했어요.