Pulse · AI 뉴스

GoLongRL: 다중 작업 정렬을 위한 역량 기반 장문 컨텍스트 강화 학습

Qwen · 2026-05-19

연구진이 장문 컨텍스트 강화 학습을 위한 완전 공개 역량 기반 후처리 레시피인 GoLongRL을 발표했어요.

GoLongRL 데이터셋은 9가지 작업 유형을 포함하며, 자연스러운 평가 지표와 함께 제공돼 기존 방법보다 더 나은 성능을 보여줘요.

TMN-Reweight 기술은 다양한 작업의 보상을 정렬하고 더 안정적인 이점 추정을 위해 도입되어 성능을 향상시켰어요.

##강화학습##장문컨텍스트##GoLongRL##TMN-Reweight

매일 핵심 AI 소식을 한국어로, 빠르게