연구진은 LLM이 다양한 신뢰 수준의 지시를 받지만 모든 토큰을 동일하게 처리하는 구조적 취약점을 해결하기 위해 중첩된 지시 계층 구조 학습 방법을 제시했어요.
Gravity-Weighted DPO(GW-DPO)는 충돌하는 지시 수준 간의 구조적 거리에 따라 샘플별 오프셋을 조정하여 우선순위 충돌을 해결하는 새로운 최적화 목표예요.
GW-DPO는 Llama-3.1-8B-Instruct 모델에서 표준 DPO보다 성능을 향상시키고 거부율을 절반으로 줄이며, 지시 세그먼트 임베딩(ISE)은 거부 임계값 조정에 중요한 역할을 해요.