Pulse · AI 뉴스

ARM: 이미지 이해·생성·편집을 통합하는 새로운 멀티모달 모델

ARM · 2026-06-09

ARM은 이미지 이해, 생성, 편집을 다음 토큰 예측 프레임워크로 통합하는 새로운 AutoRegressive 모델입니다. 이미지 토크나이저를 훈련하여 이미지를 압축된 토큰 시퀀스로 매핑하고, 7B 모델을 텍스트와 이미지 토큰 시퀀스에 대해 학습했습니다.

강화 학습(RL)을 적용하여 시각적 품질, 지시사항 준수, 편집 일관성을 최적화하여 WISE 점수를 0.50에서 0.56으로, GEdit-Bench-EN G_O 점수를 5.75에서 6.68로 향상시켰습니다.

ARM은 텍스트-이미지 생성과 편집 간의 교차 작업 시너지 효과를 유도하며, 강력한 표현과 선호도 최적화를 결합한 AutoRegressive 모델링이 멀티모달 지능의 확장 가능한 기반임을 보여줍니다.

##멀티모달##이미지생성##강화학습##AutoRegressive
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기