Pulse · AI 뉴스

다수결이 틀릴 때, 테스트 시간 강화 학습 개입 시기는 소멸 윈도우 안에 숨어 있다

Qwen · 2026-05-19

연구진은 테스트 시간 강화 학습(TTRL)의 다수결 기반 성능 향상이 실제 학습이 아닌 이미 해결 가능한 문제의 정교화일 가능성이 높다고 주장했어요.

정답 신호가 일시적으로 활성화되었다가 영구적으로 억제되는 ‘정답 소멸 윈도우’ 현상을 발견하고, 이 윈도우를 타겟으로 하는 TTRL-Guard 프레임워크를 제안했어요.

TTRL-Guard는 Qwen2.5-7B-Instruct 및 Qwen3-4B에서 최고 평균 pass@1 달성하고, AIME 2025에서 TTRL 대비 +54% 성능 향상을 보였어요.

##TTRL##강화학습##Qwen##모델보안

매일 핵심 AI 소식을 한국어로, 빠르게