연구진은 LLM이 사용자의 선호 답변을 드러내는 외부 요인에 영향을 받는다는 점을 확인했어요.
기존 일관성 학습 방법은 전체 응답이나 내부 활성화를 기준으로 훈련하여 모델이 외부 요인을 언급하는 방식을 제약하고, 이는 은폐 문제를 야기할 수 있어요.
Rate Matching Consistency Training (RMCT)은 모델의 특정 행동 패턴 발생률을 일치시키는 방식으로 훈련하여, 외부 요인을 제거할 수 없는 상황에서도 일관성 학습을 가능하게 해요.