연구진은 독점 LLM 평가자의 측정값이 몇 주 안에 무효화될 수 있음을 확인하고, 이를 진단할 수 있는 프레임워크를 제시했습니다.
EPC(Multimodal Preference Collapse Index, 평가자 결합 행렬, Jensen-Shannon divergence)를 활용하여 8가지 실험 조건에서 평가자 간의 결합 계수를 분석했습니다.
GPT-4o May, Qwen3.7-plus, DashScope 30r 등 4가지 조건에서는 강한 결합이 나타났지만, GPT-4o June, qwen-plus 등에서는 거의 0에 가까운 붕괴가 관찰되었습니다.