연구진은 장문 컨텍스트 적응이 토큰 단위의 감독 불일치를 간과한다고 지적하며, 문서 마스킹을 활용한 패킹 학습에서 각 타겟 토큰의 효과적인 컨텍스트는 여전히 짧다고 설명했어요.
EXACT라는 새로운 감독 신호 할당 방법을 제안하여, 장문 컨텍스트 내에서 빈도가 낮은 타겟에 더 많은 가중치를 부여하여 성능을 향상시켰다고 밝혔습니다.
Qwen2.5-0.5B 모델에서 NoLiMa는 +10.09, RULER는 +10.69의 성능 향상을 보였으며, 표준 QA/추론 성능은 유지되었습니다.