Pulse · AI 뉴스

대규모 오디오 언어 모델의 오디오 Jailbreak: 분류, 공격-방어 분석 및 비용 효율적 평가

LALM · 2026-05-28

연구진이 대규모 오디오 언어 모델(LALM)의 오디오 jailbreak 공격과 방어에 대한 통일된 분류와 실증적 평가를 진행했어요. 공격은 의미, 음향 스타일, 신호 오류, 내부 표현 등 다양한 방식으로 분류되며, 방어는 가드 기반, 학습 불필요, 학습 기반으로 나뉘어요. 연구 결과, Acoustic Best-of-N 공격은 심각한 오디오 공간 취약점을 드러냈고, Narrative Framing은 효과적인 저지연 의미 기반 공격으로 나타났어요.

현재 방어 기법은 유용성과 견고성 간의 균형을 맞추는 데 어려움을 겪고 있으며, 비용과 유용성을 고려한 평가가 필요하다는 점을 강조했어요. 연구는 10개의 오픈 소스 LALM을 대상으로 공격 성공률, 안전 거부, 지연 시간을 측정했어요.

이 연구는 LALM의 안전성 벤치마크에서 성공률 외에 비용과 유용성을 함께 고려하는 것이 중요함을 시사하며, 오디오 jailbreak 위험을 줄이기 위한 새로운 접근 방식 모색에 기여할 것으로 기대돼요.

##오디오##jailbreak##LALM##보안##AI

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기