연구진이 ART(Art-based Reinforcement Training)라는 새로운 미세 조정 기법을 제안했어요. ART는 기존 LoRA나 Soft Prompting 방식과 달리, 시각 입력만 최적화하여 frozen된 멀티모달 LLM(MLLM)에 정보를 주입해요.
ART는 픽셀 배열로 gradient를 역전파하는 방식으로 작동하며, 어떤 fine-tuning 목표에도 적용 가능하고, 최적화된 시각 입력은 작업 관련 예술 작품으로 스타일링할 수 있어요.
Qwen 아키텍처를 기반으로 한 실험에서 ART는 수학 및 구조화된 도구 사용 벤치마크에서 LoRA와 경쟁력 있는 정확도를 달성했어요.