연구진은 실제 주방 환경의 위험 요소를 반영한 SafetyALFRED 벤치마크를 개발했어요. Qwen, Gemma, Gemini 등 최신 모델 11개를 대상으로 위험 인식 및 회피 능력을 평가한 결과, QA 환경에서의 인식 능력과 실제 행동으로의 전환에 간극이 컸어요. 연구팀은 QA 방식의 안전 평가가 부족하다고 판단하며, 실제 환경에서의 교정 행동을 우선하는 벤치마크 개발을 제안하고 SafetyALFRED 코드와 데이터셋을 공개했어요.