연구진은 장문 컨텍스트 생성이 어려운 문제를 해결하기 위해 훈련과 추론이 동일한 세분화 수준의 실행 의미론을 따르는 프레임워크를 제안했습니다. 훈련 시에는 즉시 이전 세그먼트에서 전달된 KV 상태에만 그래디언트 전파를 제한하여 훈련과 추론의 일관성을 유지합니다. 새로운 방법은 전체 컨텍스트 어텐션과 유사한 성능을 달성하면서도 메모리 사용량을 줄이고 매우 긴 컨텍스트 길이에서도 확장성을 크게 향상시켰습니다.