연구진이 그룹 대화의 지역 사회 규범 적응을 평가하는 LoSoNA 벤치마크를 공개했어요. 이 벤치마크는 모델이 숨겨진 지역 규범을 추론하고, 이를 바탕으로 응답하는 능력을 테스트해요.
Gemini 3.1 Pro는 84.2%, Claude Fable 5는 81.6%의 정확도를 기록하며, 명시적인 규범 인식 프롬프트가 모델 성능 향상에 도움을 줬어요.
LoSoNA는 LLM의 사회적 역량을 평가하는 데 기여하며, 모델이 이전 대화를 통해 지역 규범을 추론하고, 단일 턴 그룹 대화 응답에 활용할 수 있는지 확인해요.