Pulse · AI 뉴스

ARM: 이미지 이해·생성·편집을 통합하는 새로운 멀티모달 모델

ARM · 2026-06-10

ARM은 이미지 이해, 생성, 편집을 통합하는 새로운 AutoRegressive 모델입니다. 이 모델은 이미지를 토큰 시퀀스로 변환하는 토크나이저를 기반으로 합니다. 7B 파라미터 규모의 모델은 텍스트와 이미지 토큰 시퀀스를 통해 비전-언어 인지 및 생성 능력을 갖추고 있습니다.

강화 학습(RL)을 통해 시각적 품질, 지시 준수, 편집 일관성을 최적화하여 WISE 점수를 0.50에서 0.56으로, GEdit-Bench-EN G_O 점수를 5.75에서 6.68로 향상시켰습니다.

텍스트-이미지 생성과 편집 간의 교차 작업 시너지 효과를 유도하며, 강력한 표현과 선호도 최적화와 결합된 autoregressive 모델링이 멀티모달 지능의 확장 가능한 기반임을 보여줍니다.

##멀티모달##이미지생성##강화학습##ARM

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기