Pulse · AI 뉴스

Ask, Solve, Generate: 자체 진화하는 통합 멀티모달 이해 및 생성

BLIP3 · 2026-06-26

연구진은 레이블 없이 이미지만으로 통합 대규모 멀티모달 모델(LMM)의 이해 및 생성 능력을 자율적으로 향상시킬 수 있는 자체 진화 훈련 프레임워크를 제안했어요.

이 프레임워크는 질문 생성(Proposer), 답변 및 평가(Solver), 이미지 합성(Generator) 역할을 수행하는 세 가지 내부 모듈로 구성되며, 인간 어노테이션 없이 자체적으로 생성된 일관성 신호를 사용해요.

Solver Token Entropy(STE)를 도입하여 학습을 안정화하고, 이미지 생성 시에는 질문-답변 충실도 점수와 순환 일관성 캡셔닝을 결합한 다중 스케일 내부 평가 방식을 활용했어요.

##멀티모달##이미지생성##자체학습##LMM##BLIP3

매일 핵심 AI 소식을 한국어로, 빠르게