Pulse · AI 뉴스

상호 강화 학습을 통한 이질적 언어 모델의 경험 공유

GRPO · 2026-05-08

연구진은 이질적인 LLM 정책이 서로 유형화된 경험을 교환하면서 개별 파라미터, 목표, 토크나이저를 유지하는 동시 RL 사후 훈련 프레임워크인 상호 강화 학습(Mutual Reinforcement Learning)을 소개했습니다.

Shared Experience Exchange (SEE), Multi-Worker Resource Allocation (MWRA), 토크나이저 이질성 레이어(THL)를 결합하여 텍스트를 재토큰화하고 호환되지 않는 어휘 간 토큰 수준 추적을 정렬합니다.

실험 결과, 결과 수준의 공유가 안정성-지원 균형의 유리한 지점을 차지했습니다.

##강화학습##언어모델##상호학습##GRPO##LLM
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기