Pulse · AI 뉴스

언어 모델 내부 해석을 위한 신뢰성 있는 활성화 오라클의 신뢰도와 교정

Qwen · 2026-05-25

연구진은 활성화 오라클의 신뢰도 추정 방법 6가지를 조사하고 교정 정도를 평가했어요.

실험 결과, 부트스트랩 모드 빈도가 가장 교정된 방법으로 나타났으며, Qwen3-8B에서 ECE가 5.7%로, 답변 단어 로그 확률 대비 25.5%로 개선됐어요.

연구 코드는 GitHub에서 공개됐으며, 로그 확률 기준은 비용 효율적인 신호로 활용 가능해요.

##활성화오라클##신뢰도##교정##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기