연구진은 텍스트 모드에서 학습된 안전 기능을 다른 모드(이미지, 오디오 등)로 옮기는 데 실패하는 다중 모드 LLM의 안전성 격차를 분석했어요. 이 현상을 '안전성 기하학적 붕괴'라고 명명하고, 모드 간 드리프트로 인해 유해 입력 식별이 어려워진다는 것을 밝혀냈어요. 연구진은 드리프트 교정 기술인 'ReGap'을 개발하여 모델의 안전성을 향상시켰고, 일반적인 성능 저하 없이 안전성을 개선하는 데 성공했어요.
ReGap은 모델이 스스로 유해성을 인지하는 신호를 활용하여 모드 간 드리프트를 적응적으로 교정하는 방식으로 작동하며, 학습 과정 없이 추론 시에 적용돼요. 실험 결과, ReGap은 다양한 다중 모드 안전성 벤치마크에서 효과를 입증하며, 기존 모델보다 유해 입력을 더 잘 식별하고 거부할 수 있음을 보여줬어요.
연구 결과는 다중 모드 모델의 안전성을 개선하기 위해서는 표현 수준에서의 모드 정합이 중요하다는 점을 강조하며, 실시간 안전성 향상 및 더욱 안전하고 신뢰할 수 있는 다중 모드 LLM 구축을 위한 방향을 제시해요.