Pulse · AI 뉴스

BSO: 안전 정렬은 밀도 비율 매칭

BSO · 2026-05-13

연구진은 안전성과 유용성을 모두 고려한 언어 모델 정렬을 위한 새로운 방법인 BSO(Bregman Safety Optimization)를 제시했습니다. BSO는 안전 정렬을 밀도 비율 매칭 문제로 단순화하여 기존의 복잡한 파이프라인을 대체합니다. 실험 결과, BSO는 안전성과 유용성의 균형을 개선하는 것으로 나타났습니다.

BSO는 기존 안전 인식 방법들을 특수한 경우로 회수하며, 추가적인 모델이나 하이퍼파라미터 없이 안전 정렬을 가능하게 합니다. BSO는 128K 컨텍스트를 지원하며, API, Claude.ai, Bedrock 채널에서 사용 가능합니다.

BSO는 convex generator에 의해 유도되는 단일 단계 손실 함수 패밀리로, 안전한 정책을 최적으로 복원할 수 있음이 증명되었습니다.

##안전정렬##BSO##밀도비율매칭
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기