연구진은 LLM의 적대적 강건성 평가 시 공격 전략의 컴퓨팅 비용 차이를 고려해야 한다고 주장했어요.
새로운 평가 프레임워크는 FLOPs(부동소수점 연산)를 통해 컴퓨팅 압박을 측정하고, 컴퓨팅 예산에 따른 공격 위험을 보여주는 ‘위험-컴퓨팅 곡선’을 제시했어요.
10개 모델을 분석한 결과, 모델 크기 확대는 그래디언트 기반 공격 효과를 줄이지만 저렴한 템플릿 기반 공격에는 큰 영향을 미치지 않으며, 안전 정렬 RL은 전체 비용을 증가시킨다는 사실을 발견했어요.
연구진은 컴퓨팅 비용을 고려한 위험 평가 및 평가를 위한 프레임워크를 공개하며, LLM의 안전성 연구에 기여할 것으로 기대돼요.