OpenSafeIntent는 모델이 의도 변화에 따라 안전하게 작동하는지 평가하는 새로운 벤치마크입니다. 각 데이터 포인트는 동일한 작업의 무해한 변형, 이중 사용 변형, 악의적인 변형을 포함합니다. 연구 결과, 모델은 종종 일치하는 의도 변형에서 안전성을 유지하지 못하고, 위험한 주제에 대한 답변은 신뢰성 없이 안전하지 않으며, 모호한 요청을 안전한 작업으로 재구성하는 응답은 안전 경계를 넘을 가능성이 현저히 낮습니다.