연구진은 텍스트 전제와 시각/청각 정보가 상충하는 질문에 대한 옴니모달 LLM의 반응을 분석하는 IMAVB 벤치마크를 공개했어요.
IMA VB 벤치마크 결과, 모델은 내부적으로는 불일치를 인지하지만, 실제 답변에서는 이를 제대로 반영하지 못하는 '인지-행동 격차'가 존재했어요.
PGLA(Probe-Guided Logit Adjustment) 기법을 통해 불일치 신호를 재주입하여 모델의 거부 성능을 개선할 수 있었으며, 이는 옴니모달 접지(grounding)의 병목 현상이 인지 단계가 아닌 번역 단계에 있음을 시사해요.