Pulse · AI 뉴스

3~9B 오픈 웨이트 LLM의 언어적 확신 포화: 사전 등록된 심리 측정 타당성 검사

arXiv cs.CL · 2026-04-24

연구진은 3~9B 파라미터 규모의 7개 오픈 웨이트 LLM이 최소한의 유효성 기준을 충족하는 언어적 확신을 생성하는지 테스트했어요.

심리 측정 타당성 검사 결과, 모든 모델이 숫자적 확신에서 유효하지 않은 것으로 판정되었으며, 평균 천장 비율은 91.7% 였어요.

범주형 추출은 작업 성능을 저해했고, 토큰 레벨 로그 확률은 언어적 확신을 예측하는 데 유용하지 않았어요.

##LLM##심리측정##타당성##확신##오픈소스
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기