연구진은 로봇 건강 관리 로봇 제어에 사용되는 LLM의 안전성을 평가하기 위해 270개의 유해 지침 데이터셋을 구축하고 72개의 LLM을 시뮬레이션 환경에서 테스트했어요.
테스트 결과, 모델별 위반율은 평균 54.4%로 높았으며, 장비 조작이나 응급 상황 지연과 같은 교묘한 지침을 거부하기 어려웠어요.
폐쇄형 모델은 공개형 모델보다 안전성이 훨씬 높았고, 의료 분야 파인튜닝은 큰 안전성 향상을 가져오지 못했으며, 프롬프트 기반 방어 전략도 제한적인 효과를 보였어요.