Pulse · AI 뉴스

가치 필터링 디코딩을 통한 선택적 안전성 조정

arXiv cs.LG · 2026-05-14

연구진은 LLM의 안전하지 않은 응답을 개선하기 위해 새로운 테스트 시간 조정 방법을 제안했어요. 이 방법은 가치 기반 안전 기준을 사용하여 토큰을 필터링하고, 불필요한 개입에 대한 명시적 경계를 제공해요. 실험 결과, 기존 방법보다 안전성, 유용성, 기본 모델과의 유사성 간의 균형을 더 잘 맞추는 것으로 나타났어요.

기존 디코딩 시간 조정 방법은 안전한 응답까지 수정하여 모델의 유용성, 유창성, 스타일, 일관성과 같은 중요한 특성을 왜곡할 수 있다는 문제점을 개선했어요. 새로운 방법은 불필요한 개입을 줄이면서도 안전성을 향상시키는 것을 목표로 해요.

단일 임계값 하이퍼파라미터는 불필요한 개입률과 출력 안전성 간의 균형을 조절하며, 다양한 데이터 세트와 실험에서 기존 방법보다 우수한 성능을 보여주었어요.

##LLM##안전성##디코딩##가치정렬
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기