연구진은 LLM을 활용한 이미지·비디오 캡셔닝 평가 방식의 한계를 극복하기 위해 Rigel이라는 새로운 평가 지표를 제안했어요. Rigel은 평가에 특화된 점수 헤드를 활용하여 LLM의 장점을 살리면서도 작은 레이블 집합에 대한 평가 문제를 해결하고, 인간 평가와 더 잘 부합해요. 새로운 Vid-Lepus 데이터셋을 구축하여 Rigel을 학습했고, 여러 벤치마크에서 기존 평가 지표보다 10점 이상 성능 향상을 달성했어요.