연구팀은 LLM의 가치 정렬 문제를 해결하기 위해 Stable Value Guidance Transformer(SVGT)를 제안했습니다. SVGT는 독립적인 가치 모듈을 통해 가치 표현을 안정화하고, 생성 경로를 효과적으로 제어합니다.
SVGT는 가치 공간을 백본과 분리하여 안정적인 가치 표현을 유지하고, 학습 가능한 Bridge Tokens를 통해 가치 신호를 생성 경로에 전달합니다.
실험 결과, SVGT는 유해성 점수를 70% 이상 감소시키면서도 생성의 유창성을 유지하며, LLM의 가치 정렬에 효과적인 아키텍처 기반 모델링임을 입증했습니다.