연구진은 잘못된 응답으로 훈련할 때 언어 모델에 더 광범위한 오정렬이 발생할 수 있다는 점을 밝혀냈어요. 이러한 현상을 유발하는 내부 특징을 파악했으며, 최소한의 미세 조정으로 이를 되돌릴 수 있음을 확인했어요.