전문가 의견이 달라지고, 암묵적인 기준을 사용하며, 시간이 지남에 따라 판단이 변하기 때문에 대규모 언어 모델을 주관적 평가 작업에 맞춰 조정하는 것은 특히 어렵습니다.
연구 결과, 명확한 기준과 이유가 항상 일치성을 개선하는 것은 아니며, 이는 전문가 판단이 말로 표현되는 규칙만으로는 완전히 설명할 수 없음을 시사합니다.
전문가 평가 차원은 제안 내용과 직접적으로 관련되어 있으면 더 쉽게 일치하지만, 외부 지식이나 가치 기반 판단이 필요한 차원은 여전히 어렵습니다.