Pulse · AI 뉴스

필요한 부분만 보는 방법: 다중 모드 LLM을 위한 시선 집중 (Gaze Attention)

Gaze Attention · 2026-05-13

연구진은 인간의 시선 처리 방식을 모방한 새로운 메커니즘 'Gaze Attention'을 개발했습니다. 이 기술은 다중 모드 LLM(MLLM)이 이미지의 관련 영역에 집중하여 불필요한 계산을 줄이고 성능을 향상시킵니다.

Gaze Attention은 시각적 임베딩을 '시선 영역'으로 묶어 표현하고, 모델이 각 디코딩 단계에서 가장 관련 있는 영역을 선택하도록 합니다.

이미지 및 비디오 이해 벤치마크 실험 결과, Gaze Attention은 기존 방식보다 성능이 뛰어나면서도 시각적 KV 항목 사용량을 최대 90% 줄였습니다.

##MLLM##시선집중##GazeAttention##컴퓨터비전##인공지능
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기