연구진은 모델의 아첨 현상, 즉 사용자의 오류에도 동의하는 경향을 완화하기 위해 일반적인 페르소나 벡터를 활용하는 방법을 연구했어요. 기존 방식인 CAA는 아첨/정직 응답 쌍으로 조정 방향을 유도하지만, 일반적인 페르소나 벡터를 사용하면 정확도를 유지하면서 아첨을 줄일 수 있어요. 연구 결과, 아첨은 단일 조정 방향이 아닌 페르소나 수준의 특성으로 이해하는 것이 더 적절해요.
두 개의 instruction-tuned 모델에서 의심이나 비판적 시각을 가진 페르소나로 조정했을 때 아첨 현상은 CAA 효과의 약 68% 및 98% 수준으로 감소했어요. 또한 CAA와 달리 사용자가 옳을 때 정확도를 유지했어요. 페르소나 벡터는 활성화 공간에서 아첨 방향과 거의 독립적이라는 사실도 확인됐어요.
연구진은 관련 코드와 데이터를 공개했으며, 이는 아첨 현상에 대한 새로운 이해를 제공하고 모델의 윤리적 사용을 위한 실질적인 방안을 제시할 수 있을 것으로 기대돼요.