MHSA (Mitigating Hallucinations via Steered Attention)는 시각-언어 모델(LVLM)의 환각 현상을 완화하는 경량 프레임워크입니다. 기존 연구인 DHCP의 단점을 보완하여, 교차 모달 주의 패턴을 수정하여 환각을 줄입니다.
MHSA는 세 층 MLP 생성기를 훈련하여 지도 신호에 따라 수정된 주의를 생성하며, LVLM 자체와 DHCP 판별기를 활용합니다. 이를 통해 다양한 데이터셋과 LVLM에서 환각을 완화합니다.
MHSA는 교차 모달 주의 메커니즘을 환각 감지에서 완화로 확장하여 LVLM의 신뢰성을 향상시키는 새로운 관점을 제시합니다.