연구진은 LLM의 안전 교육 과정에서 발생하는 과도한 거부 현상(무해한 질문에도 거부)을 해결하기 위해 SEAR 모델을 개발했어요. SEAR 모델은 유해한 추론을 탐색하도록 장려하여 유해한 질문과 무해한 질문을 구별하는 능력을 향상시키고, 적절한 경우에만 답변하도록 설계됐어요. 유해한 추론을 탐색하는 과정과 안전한 답변을 생성하는 과정을 경쟁적으로 훈련하여 안전성과 답변 정확도를 동시에 높였어요.