Pulse · AI 뉴스

LongAct: 고유 활성화 패턴을 활용한 장문 컨텍스트 강화 학습

arXiv cs.CL · 2026-04-16

본 논문에서는 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 강화 학습(RL) 과정에서 모델의 고유한 표현 특성을 활용하는 LongAct 전략을 제안합니다.

LongAct는 쿼리 및 키 벡터에서 고강도 활성화 패턴을 발견하고, 이를 기반으로 모델 업데이트를 선택적으로 수행하여 LongBench v2에서 약 8%의 성능 향상을 달성했습니다.

제안된 방법은 GRPO 및 DAPO와 같은 다양한 RL 알고리즘에 적용 가능하며, 이는 장문 컨텍스트의 잠재력을 최대한 활용하는 데 중요한 요소임을 보여줍니다.

##강화학습##LLM##LongAct

매일 핵심 AI 소식을 한국어로, 빠르게