Pulse · AI 뉴스

OpenSafeIntent: 의도 기반 안전 완성을 평가하는 벤치마크

OpenSafeIntent · 2026-07-02

OpenSafeIntent는 모델이 의도 변화에 따라 안전하게 작동하는지 평가하는 새로운 벤치마크입니다. 각 데이터 포인트는 동일한 작업의 무해한 변형, 이중 사용 변형, 악의적인 변형을 포함합니다. 연구 결과, 모델은 종종 일치하는 의도 변형에서 안전성을 유지하지 못하고, 위험한 주제에 대한 답변은 신뢰성 없이 안전하지 않으며, 모호한 요청을 안전한 작업으로 재구성하는 응답은 안전 경계를 넘을 가능성이 현저히 낮습니다.

##안전성##벤치마크##LLM
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기