Pulse · AI 뉴스

안전 정렬 LLM은 혼합 규정 준수 데모에서 무엇을 배우는가?

arXiv cs.AI · 2026-06-19

연구진은 안전 정렬 LLM이 유해한 응답을 생성하도록 유도하는 혼합 규정 준수 데모의 영향을 분석했어요. 4개 모델을 대상으로 실험한 결과, 유익한 데모가 모델에 따라 유해한 응답을 줄이거나 늘릴 수 있다는 것을 발견했어요. 선호도 최적화 훈련 단계가 유해한 응답 증가를 막는 데 중요하며, 데모 순서에 따라 최근 데모가 더 큰 영향을 미치는 것을 확인했어요.

모델들은 거부 시에도 데모 형식을 따르는 경우와 모든 데모 신호를 무시하는 경우로 나뉘며, 이는 모델마다 다른 거부 방식과 관련이 있어요. 이번 연구는 데모 기반 탈옥이 어떻게 작동하는지 규명하고, 데모 내용, 순서, 훈련 방법이 모델의 학습에 미치는 영향을 보여줘요.

##LLM##안전##규정준수##데모##학습
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기