Pulse · AI 뉴스

SafeSteer: 멀티모달 LLM의 디코딩 단계 안전 방어 메커니즘

SafeSteer · 2026-05-12

연구진은 멀티모달 LLM(MLLM)의 안전성 강화 방안으로 디코딩 단계에서 작동하는 'SafeSteer'를 제안했습니다. SafeSteer는 디코딩 과정에서 유해한 출력을 감지하고 수정하여 안전성을 높이는 경량화된 프로브를 사용합니다.

SafeSteer는 텍스트 안전성 정렬을 비전 모달리티로 전달하는 모달 의미 정렬 벡터를 통합하여 이미지 기반 공격에 대한 방어력을 강화합니다.

실험 결과, SafeSteer는 33.4%까지 MLLM의 안전성을 향상시키면서도 모델의 유용성을 유지하는 데 효과적임을 입증했습니다.

##멀티모달##LLM##안전성##디코딩##SafeSteer

매일 핵심 AI 소식을 한국어로, 빠르게