연구진은 보안 분류를 위해 미세 조정된 LLM이 훈련 데이터와 동일한 분포에서 가져온 보류 예제에 의해 평가될 때, 미세 조정 자체에서 발생하는 취약점을 놓칠 수 있다고 밝혔습니다.
Foundation-Sec-8B-Instruct 모델은 PowerShell 별칭 대체, 명령 재구성, 문자열 구성, 실행 간접, 대소문자 변경과 같은 행동 보존 변환에서 실패하는 토큰 수준 지표 의미론을 학습할 수 있습니다.
연구 결과, 미세 조정은 Llama에서 상속받은 후기 어텐션 경로를 집중시키고 의미적으로 전문화하여 기본 동작을 개선하는 동시에 변환에 민감한 공격 표면을 만듭니다.
향후 AI 기반 보안을 위해서는 작업의 전체 변환 공간을 명시하고 미세 조정 과정에서 의미적 드리프트를 모니터링해야 합니다.