SPeCTrA-Sum은 텍스트와 시각 정보를 함께 이해하여 간결하고 의미 있는 요약을 생성하는 모델입니다. Deep Visual Processor (DVP)를 통해 시각 인코더와 언어 모델을 깊이별로 정렬하여 의미 일관성을 유지합니다. Visual Relevance Predictor (VRP)는 Determinantal Point Processes (DPP)를 활용하여 중요한 이미지를 선택합니다.