Pulse · AI 뉴스

주관적 평가에서 전문가 일치시키는 게 왜 어려울까: 증거 기반 분석

arXiv cs.CL · 2026-05-06

전문가 의견이 달라지고, 암묵적인 기준을 사용하며, 시간이 지남에 따라 판단이 변하기 때문에 대규모 언어 모델을 주관적 평가 작업에 맞춰 조정하는 것은 특히 어렵습니다.

연구 결과, 명확한 기준과 이유가 항상 일치성을 개선하는 것은 아니며, 이는 전문가 판단이 말로 표현되는 규칙만으로는 완전히 설명할 수 없음을 시사합니다.

전문가 평가 차원은 제안 내용과 직접적으로 관련되어 있으면 더 쉽게 일치하지만, 외부 지식이나 가치 기반 판단이 필요한 차원은 여전히 어렵습니다.

##전문가평가##주관적평가##언어모델
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기