대규모 언어 모델(LLM)이 로봇 시스템의 계획 도구로 활용되면서 안전성 문제는 중요한 과제로 떠올랐어요. DESPITE 벤치마크를 통해 23개 모델을 평가한 결과, 계획 능력이 뛰어나도 위험한 계획을 내놓는 경우가 28.3%에 달했어요. 모델 규모가 커질수록 계획 능력은 향상되지만 안전 인식은 상대적으로 정체되어 있어, 안전 인식 개선이 로봇 시스템에 LLM 계획자를 적용하는 데 핵심 과제가 될 것입니다.