Pulse · AI 뉴스

LLM의 실제 확신도를 파악하는 방법: 프로브 기반 미세 조정 연구

r/MachineLearning · 2026-05-29

연구자가 프로브 기반 미세 조정(LoRa)을 통해 LLM의 언어적 확신도 보정 연구를 진행했어요.

LLM의 숨겨진 상태를 프로브하면 정답과 오답을 0.76~0.88 AUROC로 구별하지만, 직접 질문하면 99%의 확신도를 보입니다.

프로브 출력을 미세 조정 타겟으로 사용해 모델이 내부적으로 알고 있는 것을 말하도록 훈련했어요. M3 Ultra에서 10분 이내에 가능합니다.

8개의 모델을 대상으로 실험한 결과, 활성화 패칭을 통해 인과 관계를 확인하고, 70B 모델에서는 소프트맥스 분포에 메타인지 신호가 존재하지만 텍스트 병목 현상이 발생했습니다.

##LLM##미세조정##메타인지##보정

매일 핵심 AI 소식을 한국어로, 빠르게