Pulse · AI 뉴스

LLM의 잠재된 안전 의식 활용: DeepSeek-R1 모델 안전성 36.72% 향상

DeepSeek · 2026-06-15

연구진은 LLM이 스스로 안전 위험을 인지하는 '잠재된 안전 의식'을 활용하는 방법인 'Safe Trigger'를 개발했어요. 이 방법은 모델이 자체적으로 생성한 데이터를 활용해 안전 분석 및 가이드 기능을 강화하고, 기존 응답을 유지하여 일반적인 사용에는 영향을 주지 않아요.

Supervised Fine-Tuning(SFT)과 Direct Preference Optimization(DPO)을 통해 모델에 안전 태그를 부여하고, 안전하지 않은 쿼리에 대한 안전 분석 및 가이드를 제공하여 공격 성공률을 낮추는 방식으로 작동해요.

DeepSeek-R1-Distill-Llama-8B 모델의 경우, 유해 및 탈옥 벤치마크에서 공격 성공률이 각각 24.65%, 36.72% 감소하는 효과를 보였으며, 일반적인 성능이나 사용자 경험에는 거의 영향을 미치지 않았어요.

##LLM##안전##DeepSeek##SFT##DPO
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기