Pulse · AI 뉴스

엔트로피만으로는 부족하다: 시각적 추론을 위한 효과적인 강화 학습 잠금 해제 - VEPO

VEPO · 2026-06-03

연구진은 텍스트 기반 강화 학습에서 효과적인 엔트로피 기반 신용 할당 방식이 시각적 추론에서는 제대로 작동하지 않는다는 것을 확인했어요.

VEPO(Vision-Entropy token-selection for Policy Optimization)라는 새로운 프레임워크를 제안하여 시각적 민감성과 토큰 엔트로피를 결합하여 시각적 정보와 의미적 추론을 통합했어요.

VEPO는 70억 파라미터 규모 모델에서 기존 방식보다 2.28점, 30억 파라미터 규모 모델에서 3.15점 성능 향상을 보이며 시각적 추론에 효과적임을 입증했어요.

##강화학습##시각추론##VEPO##토큰선택

매일 핵심 AI 소식을 한국어로, 빠르게