Pulse · AI 뉴스

텍스트 거부 방향이 다중 모달 안전에 활용될 수 있음을 확인

MARS · 2026-07-01

연구팀이 텍스트 거부 방향이 이미지, 비디오 등 다중 모달 데이터에도 적용될 수 있음을 확인했어요. 이를 바탕으로 다중 모달 안전을 위한 새로운 방법 'MARS'를 제안했어요. MARS는 다중 모달 안전 데이터 없이도 안전성을 개선하면서 유용성을 유지하는 경량 학습 방식입니다.

MARS는 모달 불일치를 수정하고, 신뢰 영역 내에서 조향 강도를 조정하며, 최적의 개입 계층을 선택하여 작동하며, 첫 번째 생성 토큰에서 작동해요. 연구 결과, 안전 관련 구조가 여러 모달에서 공유되며 텍스트 거부 방향이 다중 모달 정렬을 위한 강력한 기반이 될 수 있음을 보여줬어요.

다섯 가지 최첨단 MLLM에서 안전, 유틸리티, 비디오 탈옥 벤치마크를 통해 MARS를 평가한 결과, 안전성을 향상시키면서 유틸리티를 유지하는 데 성공했어요.

##MLLM##안전##다중모달##MARS##거부방향
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기