Pulse · AI 뉴스

자율 보안 에이전트의 안전 정렬 효과 측정

Gemma · 2026-05-19

연구진은 안전 정렬 언어 모델과 수정된 모델이 자율 보안 에이전트로 작동할 때 어떻게 다른지 분석했어요.

30개의 취약점 분석 작업을 위한 벤치마크를 만들고 Gemma, Qwen, Llama 모델을 비교했는데, 수정된 Gemma 모델이 더 높은 성공률과 더 나은 근거를 보였어요.

하지만 Gemma 모델의 성능 차이는 일반 코딩 작업에서도 나타났고, 다른 모델에서는 수정된 모델의 성능이 오히려 저하됐어요.

연구 결과, 자율 보안 에이전트의 안전 효과는 거부율 외에 도구 신뢰성, 증거 근거 등 시스템 수준에서 측정해야 한다고 강조했어요.

##보안##에이전트##Gemma

매일 핵심 AI 소식을 한국어로, 빠르게