Pulse · AI 뉴스

추론 모델의 신뢰성을 해칠 수 있나? 추론 능력 향상과 정렬 유지의 균형

arXiv cs.CL · 2026-06-10

연구진은 추론 능력 향상을 위해 재훈련된 LLM이 안전 거부, 편향 회피, 개인 정보 보호 등 정렬 행동을 제대로 유지하지 못한다는 사실을 밝혀냈습니다.

지도 학습, 강화 학습, 증류 등 다양한 추론 모델을 분석한 결과, 추론 성능은 향상되었지만 독성 증가, 편견 증폭, 거부 신뢰도 오차, 개인 정보 유출 등 정렬 회귀 현상이 나타났습니다.

연구 결과, 추론 모델의 신뢰성 지표를 보고하고 추론 능력 향상과 함께 정렬 유지의 중요성을 강조해야 합니다.

##LLM##추론모델##정렬##신뢰성##안전
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기