Pulse · AI 뉴스

언어 모델 스스로 비평하는 방법: 내부 상태 값 추정 기반 강화 학습

Qwen · 2026-05-08

연구진은 정책 모델의 내부 신호를 활용하여 값 추정 기준선을 저렴하게 얻는 POISE(Policy Optimization with Internal State Value Estimation) 기법을 제안했습니다.

POISE는 단일 rollout만으로 프롬프트 값을 추정하여 더 다양한 프롬프트를 사용하도록 지원하며, 기존 방식보다 학습 안정성을 높이고 샘플링 비용을 절감합니다.

Qwen3-4B와 DeepSeek-R1-Distill-Qwen-1.5B 모델을 활용한 수학 추론 벤치마크에서 POISE는 DAPO와 유사한 성능을 보이면서도 더 적은 컴퓨팅 자원을 사용했습니다.

##강화학습##모델최적화##POISE

매일 핵심 AI 소식을 한국어로, 빠르게