Pulse · AI 뉴스

CLIP 기반 다국어 시각적 객체 지칭 연구: 언어적 성능 격차 분석

CLIP · 2026-05-10

연구진은 13개 언어의 CLIP 모델을 분석하여 다국어 시각-언어 모델의 성능 격차 원인을 파악했습니다. 분석 결과, 저자원 언어의 경우 텍스트 분기(text branch)에서 성능 저하가 발생하는 것으로 나타났습니다.

시각 인코더 크기를 7배 늘리면서 구조적 실패가 발생하는 언어(바스크, 룩셈부르크어)의 격차가 더 벌어졌지만, 아랍어의 경우 성능이 향상되는 현상이 관찰되었습니다.

연구는 다국어 환경에서 에너지 효율적인 배포를 위한 실용적인 기반 기술인 CLIP 기반 객체 지칭의 가능성을 제시하며, 공간적 정렬 불일치가 주요 실패 요인임을 밝혀냈습니다.

##CLIP##다국어##시각적지칭##언어모델##연구

매일 핵심 AI 소식을 한국어로, 빠르게