Pulse · AI 뉴스

SPeCTrA-Sum: 시각적 정보를 활용한 다중 모드 요약 모델

SPeCTrA-Sum · 2026-05-12

SPeCTrA-Sum은 텍스트와 시각 정보를 함께 이해하여 간결하고 의미 있는 요약을 생성하는 모델입니다.

Deep Visual Processor (DVP)를 통해 시각 인코더와 언어 모델을 깊이별로 정렬하여 의미 일관성을 유지합니다.

Visual Relevance Predictor (VRP)는 Determinantal Point Processes (DPP)를 활용하여 중요한 이미지를 선택합니다.

##모델출시##멀티모달##요약

매일 핵심 AI 소식을 한국어로, 빠르게