Pulse · AI 뉴스

다중 모드 에이전트 추론을 위한 에이전트 탐색적 정책 최적화

Qwen · 2026-05-28

연구진은 시각-언어 모델의 추론 능력과 외부 도구 활용을 결합한 에이전트 추론의 불균형 문제를 해결하기 위해 AXPO(Agent eXplorative Policy Optimization)를 제안했어요. AXPO는 잘못된 도구 활용 시도를 수정하여 학습 신호를 개선하고, 생각 단계와 도구 활용 단계의 간극을 줄여요. Qwen3-VL-Thinking 모델을 활용한 실험에서 AXPO는 기존 방식 대비 성능을 향상시켰어요.

##에이전트##추론##최적화##Qwen##AXPO

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기