연구진은 LLM의 안전 장치가 의도치 않게 작동하여 명백한 증거를 무시하는 '오작동된 정렬' 현상을 발견했어요. 이를 측정하기 위해 VETO 벤치마크와 MAR 지표를 도입하여 25개 LLM을 분석했는데요. LLM은 모두 상당한 오작동률(4.7~18.9%)을 보였지만, 사람은 0%를 기록했어요. 프라이밍 실험 결과, 안전 관련 프레임이 오작동률을 증폭시키는 것을 확인했습니다.
VETO 벤치마크는 BBQ에서 파생된 2,032개의 대조 쌍으로 구성되어 있으며, MAR은 모델이 스테레오타입 관련 질문에 실패하는 빈도를 측정하는 지표예요. 연구 결과, LLM은 층위에서 증거 기반 답변을 억제하는 경향이 있으며, 이는 instruction training 이후에 나타나는 현상으로 분석됐어요.
이러한 오작동은 LLM이 표면적인 안전 신호를 과도하게 일반화하여 객관적인 증거를 무시하게 만드는 문제점을 보여줘요. 연구진은 LLM 정렬 목표를 개선하여 문맥적 기반을 더 잘 유지해야 한다고 제안했어요.
현재 LLM 정렬 방법은 안전을 위해 설계되었지만, 때로는 명백한 증거를 무시하는 부작용을 일으킬 수 있다는 점을 시사합니다.