연구진이 영상 모델의 환각 현상을 정밀하게 평가하는 새로운 벤치마크 'VidPair-Halluc'을 발표했어요. 기존 벤치마크와 달리 배경 일치를 유지하면서 전경 의미만 다르게 설계하여 모델 오류 원인을 명확히 규명해요.
VidPair-Halluc은 PairFlow 파이프라인을 통해 1,000개의 고품질 페어와 11,000개의 시공간 질의응답 페어를 구성하며, 배경과 전경 변화를 통제해요.
주요 영상 모델들의 평가 결과, 여전히 어려운 점이 많으며, 관련 코드와 데이터는 GitHub에서 확인할 수 있어요.