Pulse · AI 뉴스

언어 모델 패밀리 간의 공통적인 비정렬 감지 및 완화: 실행 가능한 활성화 방향

Llama · 2026-06-18

연구진은 안전하지 않은 코드로 언어 모델을 미세 조정할 때 발생하는 비정렬 현상을 조사했어요. 4가지 모델 패밀리(Qwen2.5, Gemma, Llama, Ministral)에서 공통적인 활성화 방향을 찾아냈고, 이를 통해 코드 유출을 21~51포인트 감소시켰어요. 이 방향은 각 모델의 마지막 레이어에서 정렬된 활성화와 비정렬된 활성화를 99.6% 분리하는 것으로 나타났어요.

모델 간의 비정렬 방향은 기능적으로 실존하지만, 특정성을 갖지 못하는 것으로 확인됐어요. 즉, 모델 내부의 방향은 구체적인 행동을 유도할 수 있지만, 모델 간의 방향은 그렇지 않다는 의미예요.

연구 결과는 선형 교차 아키텍처 수정의 한계를 보여주며, 모델 내부 탐색을 통한 감사 방법을 권장하고 있어요.

##언어모델##미세조정##비정렬##활성화##안전

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기