Pulse · AI 뉴스

LLM 안전 정렬의 맥락 불변성 확보를 위한 연구

arXiv cs.CL · 2026-05-20

연구진은 LLM의 안전한 행동이 표면적인 프롬프트에 따라 달라지는 문제를 지적하며, 맥락 불변성 정렬의 필요성을 제기했어요.

Anchor Invariance Regularization (AIR) 기법을 통해 검증 가능한 프롬프트를 기준으로 불확실한 프롬프트를 정규화하여 안전성 문제를 개선했어요.

AIR는 안전, 도덕적 추론, 수학 분야에서 그룹 정확도를 12.71% 향상시키고, 분산 일치도를 33.49% 높여 악의적인 프레임에 대한 안전 제약의 강건성을 높였어요.

##LLM##안전##정렬##AIR##인공지능
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기