Pulse · AI 뉴스

다중 모드 에이전트 추론을 위한 에이전트 탐색적 정책 최적화

Qwen · 2026-05-27

연구진은 복잡한 문제를 해결하기 위해 외부 도구를 활용하는 에이전트 추론 과정에서 '사고-행동 간극' 문제를 발견했어요. 이 간극은 도구 사용 시 학습 신호를 약화시켜 성능 저하를 야기했어요. AXPO(Agent eXplorative Policy Optimization)는 잘못된 도구 사용 시 사고 전 과정을 수정하고 재샘플링하여 학습 효율을 높이는 방법이에요.

AXPO는 Qwen3-VL-Thinking 모델을 기반으로 9개의 다중 모드 벤치마크에서 SFT+GRPO 대비 평균 1.8%의 Pass@1 및 Pass@4 성능 향상을 보여줬어요. 특히 8B 모델은 32B 모델을 능가하는 성능을 보여줬어요.

AXPO는 기존 방식 대비 적은 파라미터로 더 높은 성능을 달성하여, 에이전트 추론 분야의 효율성을 높이는 데 기여할 것으로 기대돼요.

##에이전트##추론##최적화##Qwen##AXPO

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기