ARM은 이미지 이해, 생성, 편집을 통합하는 새로운 AutoRegressive 모델입니다. 이 모델은 이미지를 토큰 시퀀스로 변환하는 토크나이저를 기반으로 합니다. 7B 파라미터 규모의 모델은 텍스트와 이미지 토큰 시퀀스를 통해 비전-언어 인지 및 생성 능력을 갖추고 있습니다.
강화 학습(RL)을 통해 시각적 품질, 지시 준수, 편집 일관성을 최적화하여 WISE 점수를 0.50에서 0.56으로, GEdit-Bench-EN G_O 점수를 5.75에서 6.68로 향상시켰습니다.
텍스트-이미지 생성과 편집 간의 교차 작업 시너지 효과를 유도하며, 강력한 표현과 선호도 최적화와 결합된 autoregressive 모델링이 멀티모달 지능의 확장 가능한 기반임을 보여줍니다.