본 연구는 LLM을 활용한 사회과학 측정에서 모델의 오차 보정 문제를 다룹니다. FOMC 사례 연구를 통해 LLM의 신뢰도 기반 필터링이 회귀 추정치를 변경할 수 있음을 보여줍니다. 14가지 사회과학 구성 요소를 대상으로 GPT-5-mini, DeepSeek-V3.2 등 다양한 모델의 신뢰도와 정확성 간 불일치를 분석했습니다.
연구 결과, LLM의 신뢰도 보고는 과제 및 모델 패밀리 전반에 걸쳐 정확성을 제대로 반영하지 못하는 것으로 나타났습니다. 이를 완화하기 위해 Bert를 활용한 소프트 라벨 증류 파이프라인을 제안하여 ECE를 43.2% 감소시키고 Brier 점수를 34.0% 개선했습니다.
연구는 LLM 기반 사회과학 파이프라인에서 오차 보정을 측정 유효성의 필수 요소로 간주해야 함을 강조합니다.