Pulse · AI 뉴스

기존 LLM에도 잠재된 자기 평가 능력: 소량 데이터로 잠재적 판정 교정 능력 이끌어내기

arXiv cs.CL · 2026-06-04

연구진은 LLM이 자신의 출력에 대한 판정 점수를 예측하는 능력이 이미 상당 부분 존재함을 확인했어요. 3개 벤치마크에서 few-shot 프롬프팅만으로도 외부 판정단의 품질 점수를 chance 이상으로 잘 예측해요. Self-Evaluation Elicitation(SEE) 방법론을 통해 이 잠재력을 활용해 답변 품질을 개선하고 판정 예측 정확도를 높였어요.

SEE는 판정 예측과 답변 개선을 결합한 강화 학습 단계와 답변은 유지하면서 예측을 강화하는 마스크 증류 단계를 포함하며, 160개의 예시로 기존 강화 학습 방식보다 31배 적은 데이터로 교정 성능을 향상시켰어요.

이끌어낸 자기 평가는 모델 내 토큰 분포 내에 명확하게 나타나며, 훈련에 사용되지 않은 판정단에게도 안정적으로 유지되어 품질에 대한 일반적인 개념을 보여줘요.

##LLM##자기평가##강화학습##SEE##교정
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기