연구진은 LLM과 에이전트가 사회적 환경에서 안전하고 적절한 행동을 위해 규범적 역량이 중요하다고 강조했어요. 기존 방식은 텍스트 기반 판단이나 고정된 행동 선택지로 규범적 판단을 평가했지만, 실제 환경에서는 상황에 맞는 행동을 스스로 판단하고 근거를 제시해야 해요. NoRA는 시각적 1인칭 동영상 벤치마크로, 모델이 행동 후보를 생성하고 사실 기반의 이유를 통해 지원하는 그래프를 구축하도록 요구해요.
NoRA 벤치마크는 1,420개의 주석이 달린 동영상 클립으로 구성되며, 행동 일치성, 사실적 근거, 지원 바인딩을 통해 규범적 타당성 점수를 평가해요. 12개의 멀티모달 시스템을 다양한 프롬프트 방식으로 테스트한 결과, 현재 VLMs는 상황에 맞는 행동과 관련 장면 사실을 자주 파악하지만, 적절한 행동 공간을 구축하고 선택한 행동을 올바른 근거에 연결하는 데 어려움을 겪고 있어요.
NoRA는 모델이 적절한 행동을 올바른 이유로 정당화할 수 있는지 평가하는 질문을 제시하며, 모델의 성능 격차를 측정 가능한 지표로 제공해요.