Pulse · AI 뉴스

ALIGNBEAM: 크로스-보카불러리 로짓 믹싱을 통한 추론 시간 정렬 전이

ALIGNBEAM · 2026-06-11

ALIGNBEAM은 안전한 기준 모델과 어휘가 다른 모델 간에도 안전성 정렬을 가능하게 하는 새로운 방법입니다. 기준 모델의 로짓을 대상 모델의 어휘 토큰 단위로 번역하고, 작은 LLM 판사가 가장 안전한 K개 후보를 선택합니다. 모델 가중치를 변경하지 않고, 배포 시 안전-유용성 균형을 조정할 수 있습니다.

ALIGNBEAM은 어휘 간 및 동일 어휘 평가 모두에서 적대적 벤치마크에서 거부율을 크게 높이는 동시에 작업 정확도와 추론 오버헤드를 실용적인 범위 내로 유지합니다. 모델 패밀리 간에도 추론 시 안전성 정렬이 가능함을 보여줍니다.

기존 방식은 두 모델이 동일한 어휘를 공유해야 했지만, ALIGNBEAM은 이 제약을 해소하여 안전성이 가장 저하된 크로스-패밀리 전문가 모델에도 적용할 수 있습니다.

##LLM##안전성##추론##ALIGNBEAM
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기