연구진은 LLM 에이전트의 사회적 행동을 인간과 비교하기 위해 네트워크 죄수의 딜레마 실험을 진행했어요. 9개의 오픈 웨이트 LLM이 인간 데이터와 유사한 협력 감소 및 안정화 패턴을 보였지만, 개별 행동의 다양성은 제대로 반영하지 못했어요. LLM 에이전트는 인간보다 획일적인 의사결정 패턴을 보이며, 무작위 에이전트 추가로도 이러한 차이는 줄어들지 않았어요.
LLM 에이전트는 집단 수준의 결과는 인간과 유사하게 보이지만, 개별 행동 분포와 의사결정 메커니즘은 다르다는 점을 보여줬어요. 인간 사회 행동을 LLM으로 재현하려면 집단 역학, 개별 다양성, 상황 의존적 의사결정 규칙을 모두 고려해야 해요.
이번 연구는 LLM 에이전트의 사회적 행동을 검증할 때 단순한 결과 합치뿐 아니라, 다양한 측면에서의 일관성을 평가해야 함을 시사합니다.