연구진은 instruction fine-tuning(IFT) 과정에서 LLM이 문맥을 활용하는 방식을 분석했습니다. SFT, DPO, RLVR 등 단계별로 모델의 문맥 민감도가 어떻게 변화하는지 측정했습니다. 연구 결과, SFT는 모델이 이해하기 쉬운 문맥(높은 길이, 문맥-질의 유사성, 유창성)을 선호하도록 만듭니다.
SFT 이후에는 학습 데이터셋에 따라 이러한 선호도가 강화되거나 해결될 수 있습니다. 이는 IFT 과정에서 문맥 활용이 적극적으로 재형성된다는 것을 의미합니다.