Qwen3.6-27B 모델을 RTX 3090 단일 GPU에서 실행했을 때, 컨텍스트 길이를 218K까지 늘리고 툴 호출 안정성을 확보했어요.
이전 설정보다 TPS는 낮아졌지만, 실제 워크로드에서 더 높은 컨텍스트와 안정성을 제공하며, 25K 토큰 길이의 툴 출력도 OOM 없이 처리할 수 있게 되었어요.
연구진은 200K 이상의 높은 컨텍스트, 사용 가능한 처리량, 안정적인 툴 에이전트 워크로드를 목표로 하고 있으며, GitHub 저장소를 통해 재현 방법을 공개했어요.