연구진은 언어 모델(LM)이 예측에 대한 설명을 생성하도록 훈련할 때 진정한 자기 성찰이 나타나는 조건을 연구했어요. 모델의 행동 변화를 감독으로 활용했는데, 놀랍게도 이전 체크포인트 또는 유사한 모델의 설명을 기반으로 훈련된 모델은 현재 행동보다 과거 행동에 더 충실한 설명을 생성하는 경향이 있었어요.
자기 성찰적 결합은 훈련 설명이 현재 행동과 상관 관계를 유지할 때 발생하며, 모델의 행동이 변화하더라도 설명 훈련은 고정돼요. 연구 결과, 설명 훈련은 행동 변화를 추적하며, 레이블 노이즈에도 강건해요.
이 연구는 고정된 반사실적 설명 데이터셋이 자기 성찰을 위한 확장 가능하고 일반화 가능한 사후 훈련 신호를 제공할 수 있음을 보여줍니다.