Pulse · AI 뉴스

LLM을 위한 마찰 정책 최적화: 인식적 개입, 위험 감지 제어, 그리고 반사적 정렬

arXiv cs.CL · 2026-04-28

Frictive Policy Optimization (FPO)은 언어 모델 정책을 학습하여 무엇을 말할지 뿐만 아니라 언제, 어떻게 개입하여 인식적, 규범적 위험을 관리하는 프레임워크를 제안해요.

FPO는 명확화, 검증, 도전, 재방향, 거절을 명시적인 제어 행동으로 취급하여 시간이 지남에 따라 믿음, 약속, 불확실성을 형성하는 것을 목표로 해요.

새로운 평가 프레임워크는 명확화 행동, 교정, 모순 수정, 거절 비례성, 정보 효율성을 통해 인식적 역량을 직접적으로 측정해요.

##LLM##정렬##제어##인공지능##연구

매일 핵심 AI 소식을 한국어로, 빠르게