연구자가 LLM 학습 시 토큰 예측 정확도를 높이는 두 가지 새로운 함수를 개발하여, 기존 방식 대비 인간 선호도가 약 59.9% 향상되는 결과를 얻었습니다. 개발된 함수는 토큰의 예측 가능성과 각 레이어의 변화량을 고려하여 학습 신호를 조절하며, 총 그래디언트 예산은 그대로 유지합니다. 연구 결과는 42명의 심사위원 평가에서 유의미한 차이를 보였으며, 인간 심사위원과 기반 모델 심사위원 간에도 일관된 결과를 나타냈습니다.