Pulse · AI 뉴스

캡션이 정말 무엇을 말하는가? 이미지-텍스트 사전 훈련을 위한 조작적 구문 개입

NegCLIP · 2026-05-22

연구진은 CLIP 스타일의 대비 학습에서 캡션의 조성을 파악하는 데 한계가 있음을 밝혔습니다.

기존의 전역 필터링 방식은 이미지와 텍스트의 광범위한 일관성을 평가하는 데 집중하지만, 개별 구문의 중요성을 간과합니다.

Counterfactual Phrase Intervention (CPI)은 캡션 내 구문을 조작하여 이미지-텍스트 점수에 미치는 영향을 측정하는 새로운 프레임워크입니다.

CPI를 적용한 결과, CC3M 데이터셋에서 50%의 데이터 서브셋으로도 기존 방식보다 성능이 향상되었으며, 일반적인 성능 유지 및 추가적인 개선 효과를 보였습니다.

##이미지-텍스트##사전훈련##CPI##조합성##컴퓨터비전
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기