독립 연구자가 정밀 가중치와 발산 스케일링 기법을 적용하여 훈련한 12억 파라미터 언어 모델이 표준 교차 엔트로피 방식으로 훈련된 모델보다 인간 선호도에서 63.4% 높은 결과를 보였습니다.
두 모델은 동일한 데이터로 훈련되었으며, 훈련 과정에서 정밀 가중치와 발산 스케일링 기법을 적용하여 훈련 효율성을 높였습니다. 이 기법들은 옵티마이저나 아키텍처에 구애받지 않으며, 훈련 속도에 미치는 영향도 미미합니다.
연구자는 이 결과가 훈련 시간 개입을 통해 인간 선호도를 의미 있게 변화시킬 수 있다는 점을 시사하며, 향후 arXiv에 논문을 제출할 예정입니다. cs.LG 분야의 검토를 위해 엔도르스 코드를 공개했습니다.