연구팀은 LLM의 윤리적 판단을 특정 프레임워크로 유도하면서도 일반적인 능력은 유지하는 새로운 방법을 제시했어요.
Convergent-Divergent Routing 기술은 모델 내부의 윤리적 판단 경로를 추적하고 수정하며, Dual Logit Calibration은 윤리적 선호도를 사용자가 원하는 대로 맞춤 설정하는 역할을 해요.
실험 결과, 이 방법은 기존 기술보다 우수한 성능을 보였으며, 윤리적 판단 과정을 명확하게 해석할 수 있다는 장점이 있어요.