연구진이 LLM의 복잡한 추론 능력 향상을 위한 새로운 지표 HES(High-Entropy Sum)를 제안했어요. HES는 데이터 품질을 판단하는 훈련 불필요 지표로, 추론 과정에서 가장 높은 엔트로피를 가진 토큰의 합을 측정합니다.
SFT, RFT, RL 등 다양한 훈련 방식에서 HES가 효과적임을 입증했으며, SFT에서는 상위 20% HES 데이터만으로 전체 데이터셋과 유사한 성능을 냈어요.
RL 환경에서 HES를 활용해 성공적인 추론 경로를 선택한 결과, 기존 방법보다 뛰어난 성능을 보이며 LLM의 고급 추론 능력 개발에 기여할 것으로 기대됩니다.