Pulse · AI 뉴스

텍스트 외 정보 활용: 오디오-언어 모델의 수정 가능한 판단 전환

GACL · 2026-06-04

연구진은 오디오-언어 모델(ALM)이 텍스트와 충돌하는 경우에도 텍스트를 따르는 현상을 분석했어요. 5개의 ALM 모델과 4가지 충돌 과제에서 64.1%의 경우, 오디오가 지지하는 답변이 오히려 뒤집히는 현상이 나타났어요.

연구진은 활성화 패치 기술을 활용해 판단 전환이 답변 위치 계산에 국한됨을 확인하고, 이를 바탕으로 GACL(Gated Audio Counterfactual Logit Correction)이라는 새로운 디코딩 규칙을 제안했어요. GACL은 기존 모델의 성능을 유지하면서도 충실도를 17.8% 향상시켰어요.

GACL은 학습 없이도 시각-텍스트 판단 영역에 적용 가능하며, 최대 40.5%의 성능 향상을 보여줬습니다. 이는 오디오 정보가 ALM의 판단에 미치는 영향을 개선할 수 있는 가능성을 보여줍니다.

##오디오언어모델##ALM##GACL##인공지능
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기