Pulse · AI 뉴스

토큰마다 학습이 다르다: 어텐션 엔트로피가 RL 추론에서 이질적인 신호를 드러낸다

Qwen · 2026-05-08

본 연구는 강화 학습 기반의 사후 훈련이 대규모 언어 모델의 추론 능력을 향상시키는 핵심 접근 방식이지만, 토큰 수준의 학습 신호가 어떻게 작용하는지 제대로 이해하지 못하고 있다고 지적합니다.

저어는 어텐션 엔트로피를 통해 토큰 수준의 학습 신호의 이질성을 연구한 결과, '앵커' 토큰은 안정적인 그래디언트를 생성하고 '익스플로러' 토큰은 더 큰 변화를 유발한다는 사실을 밝혀냈습니다.

연구팀은 어텐션 엔트로피를 활용한 소프트 리웨이팅 개입을 통해 Qwen3-8B-Base 모델의 성능을 향상시켰으며, 이는 토큰 수준의 RL 신호에서 중요한 구조를 파악하는 데 도움이 된다는 것을 시사합니다.

##강화학습##어텐션##토큰##Qwen##사후훈련

매일 핵심 AI 소식을 한국어로, 빠르게