연구자가 Qwen 모델의 불필요한 사고를 줄이는 방법인 TIME(short context-triggered thinking)을 개발했어요. TIME은 모델이 응답 중간에 컨텍스트 변화에 따라 다시 생각하도록 훈련하는 방식이에요.
QLoRA를 활용해 Qwen3 4B/8B/14B/32B 모델을 훈련했으며, 7950X3D PC에서 24GB VRAM으로 14B 모델까지 훈련 가능해요.
연구 결과, TIME은 QwQ 문제 해결에 도움을 주며, Qwen3.5 및 Qwen3.6 모델에도 적용할 계획이에요.
논문과 데이터, 코드, 훈련 커리큘럼, 평가 도구 등이 GitHub 저장소에서 공개되었으며, 누구나 쉽게 재현할 수 있어요.