주택 배정부터 응급실 분류까지, LLM은 제한된 자원을 위해 사람들을 순위를 매기는 중요한 결정에 활용될 가능성이 커지고 있습니다.
LLM이 쌍대 비교를 통해 순위를 매기는 방식은 인지적 부담을 줄이고 오류 가능성을 낮추지만, LLM의 판단 일관성을 어떻게 확인할 수 있는지가 중요합니다.
삼위일체 계수($ζ$)와 켄달의 타우(Kendall’s τ)를 활용하여 LLM의 일관성을 측정하고, 주거 서비스 배정 및 응급실 분류와 같은 고위험 우선순위 작업에서 LLM의 성능 차이를 분석했습니다.