본 논문은 개인화된 정렬이 다양한 사용자 선호도에 맞춰 LLM을 조정하는 것을 목표로 하지만, 통계적 효율성을 위한 이론적 조건이 명확히 확립되지 않았습니다.
연구 결과, 개인화된 정렬이 O(1) 온라인 후회와 log(1/epsilon) 오프라인 샘플 복잡도를 달성하기 위해서는 사용자별 헤드의 집단이 최적의 응답을 변경할 수 있는 잠재적 보상 방향을 포괄해야 하는 사용자 다양성 조건이 필요하며, 이는 필요충분 조건입니다.
사용자 다양성 조건이 충족되면 간단한 탐욕 알고리즘으로 벤치마크 효율성을 달성할 수 있지만, 그렇지 않으면 자연스러운 허용 가능한 클래스의 모든 학습자가 최소한 로그 후회를 발생합니다.