연구진은 LLM의 지도 학습 방식인 SFT의 문제점을 개선하기 위해 InfoSFT를 제안했어요. InfoSFT는 기존 방식이 학습 데이터의 신뢰도를 고려하지 않아 성능 저하를 일으킨다는 점에 착안해, 적절한 가중치를 부여하는 방식이에요.
InfoSFT는 기존 방식보다 일반화 성능을 향상시키고, 기존 능력을 더 잘 유지하며, 수학, 코딩, 추론 등 다양한 작업에서 효과적이에요.
InfoSFT는 표준 토큰 단위 손실 함수에 한 줄만 추가하면 적용할 수 있을 정도로 간단하며, 다양한 모델 패밀리에서 성능 향상을 보였어요.