연구진이 장문 컨텍스트 추론 성능을 높이는 LongAttnComp을 개발했어요. AttnComp을 기반으로 가벼운 크로스 어텐션 레이어를 조정하고 토큰 단위 청킹, 토큰 예산 top-p 알고리즘, 위치 재정렬, 형식 불문 쿼리 파서를 도입했어요.
LongAttnComp은 InfiniteBench Code-Debug에서 전체 컨텍스트 정확도에 맞춰 성능을 냈고, 기존 방식보다 훨씬 뛰어났으며, 세 가지 패밀리의 네 가지 모델로 이식 가능성을 입증했어요.
두 단계로 구성된 파인튜닝 레시피는 LongBench v2에서 다중 문서 추론 성능을 개선하면서 Code-Debug 성능을 유지했어요.