연구진은 언어 모델 학습 과정에서 데이터가 모델에 어떤 영향을 미치는지 파악하기 어려워 부작용이 발생한다고 지적했어요. 이를 해결하기 위해 해석력 프로토콜을 활용해 데이터의 잠재적 개념을 분석하고, 사용자가 세밀하게 피드백할 수 있도록 하는 데이터 중심 학습 파이프라인을 개발했어요. 실험 결과, 기존 데이터의 문제점을 진단하고, 원치 않는 학습을 완화하며, 안전 장치나 모델 개성 등 원하는 특성을 강화하는 데 도움이 되는 것을 확인했어요.
기존의 불투명한 보상 최적화 방식에서 벗어나, 해석력을 활용해 학습 신호를 감사하고 조형하는 방식으로 학습 과정을 개선할 수 있다는 점을 제시했어요. 데이터 분석을 통해 모델이 학습하는 개념을 명확히 하고, 사용자가 세밀하게 피드백할 수 있도록 함으로써 모델의 행동을 더욱 효과적으로 제어할 수 있다는 점을 강조했어요. 이를 통해 모델의 스타일화, 아첨과 같은 부작용을 줄이고, 원하는 특성을 강화할 수 있다고 설명했어요.