연구진은 LLM 에이전트의 사회적 추론 능력을 평가하는 새로운 환경 '소셜 그리드'를 공개했어요. 소셜 그리드는 Among Us에서 영감을 받아 계획, 작업 실행, 사회적 추론 능력을 평가하며, 현재 최고 성능 모델도 낮은 정확도를 보이고 있어요. 소셜 그리드는 자동 실패 분석 및 세분화된 지표를 제공하여 개발자들이 에이전트의 문제점을 진단하고 개선할 수 있도록 돕고, Elo 레이팅을 활용한 경쟁 리더보드도 제공해요.