연구진은 문서의 텍스트만으로 군중의 하이라이트 중요도를 예측할 수 있는지 조사했어요. 기존 연구에서는 제로샷 언어 모델이 간단한 위치 기반 예측보다 성능이 떨어졌는데, 하이라이트 데이터로 학습된 모델은 이를 능가하는지 확인했어요.
문장 임베딩과 위치/맥락 정보를 활용한 로지스틱 랭커는 평균 정밀도 0.044의 소폭이지만 강력한 성능 향상을 보여줬고, 95%의 신뢰 구간에서 0.03의 사전 등록된 마진을 초과했어요.
이 모델은 일반적인 비지도 기반 예측보다 0.108의 성능 향상을 보였으며, 정밀도@3은 0.25에서 0.39로 55% 향상됐고, 문서의 69%에서 위치 기반 예측보다 우수한 성능을 보였어요.
문서의 인기도와 라벨 신뢰도가 성능에 영향을 미치며, 가장 인기 있는 콘텐츠에서는 위치 기반 예측이 오히려 강해지는 현상이 관찰됐어요. 이 연구는 미래 독자를 확보한 문서에 대한 후행적 콜드 스타트 시뮬레이션입니다.