Pulse · AI 뉴스

LLM 학습 결과, 토큰 예측 정확도 향상 함수가 인간 선호도에 긍정적 영향

r/MachineLearning · 2026-04-28

연구자가 LLM 학습 시 토큰 예측 정확도를 높이는 두 가지 새로운 함수를 개발하여, 기존 방식 대비 인간 선호도가 약 59.9% 향상되는 결과를 얻었습니다.

개발된 함수는 토큰의 예측 가능성과 각 레이어의 변화량을 고려하여 학습 신호를 조절하며, 총 그래디언트 예산은 그대로 유지합니다.

연구 결과는 42명의 심사위원 평가에서 유의미한 차이를 보였으며, 인간 심사위원과 기반 모델 심사위원 간에도 일관된 결과를 나타냈습니다.

##LLM##학습##연구##AI##모델출시

매일 핵심 AI 소식을 한국어로, 빠르게