SCENE는 LLM 기반 에이전트가 온라인 그룹 채팅의 암묵적인 사회적 규범을 인식하고 적응하는 능력을 평가하는 벤치마크입니다. SCENE는 숨겨진 규범을 따르는 페르소나를 활용하여 규범 위반 상황을 만들고, 위반 시 제재를 가하는 시나리오를 생성합니다. Claude Opus 4.7과 Gemini 3.1 Pro는 다른 모델보다 암묵적인 규범에 더 잘 적응하는 것으로 나타났습니다.