OneReason은 추천 모델의 추론 능력을 향상시키기 위한 연구 결과입니다. 기존 모델은 스케일링만 가능하고 추론 능력이 부족하다는 문제점을 해결하고자 합니다. 연구진은 아이템 토큰만으로 의미 있는 CoT 시퀀스를 구성하는 데 어려움을 겪었고, 두 가지 요소(지각 및 인지)를 결합한 OneReason 모델을 제안했습니다.
OneReason은 아이템 토큰의 지각 능력 강화, 3단계 인지 기반 CoT 형식, 그리고 RL을 활용한 특화-통합 훈련 레시피를 포함합니다. 이를 통해 추천 모델의 추론 능력을 향상시키고, 사용자 행동을 이해하는 데 도움을 줄 수 있습니다.
연구 결과, OneReason은 기존 모델보다 더 나은 성능을 보여주며, 추천 시스템의 정확도와 효율성을 높이는 데 기여할 것으로 기대됩니다.