연구진은 LLM 사회 시뮬레이션의 성능 향상을 위해 규모 확장 방식이 효과적인지 조사했어요. 85개의 Qwen3 모델을 활용해 연산 규모와 시뮬레이션 정확도의 관계를 분석했죠. 결과적으로 의견 모델링, 행동 시뮬레이션, 장기 예측에서 연산 규모에 따른 성능 향상이 확인됐어요. 하지만 저조한 자원 환경에서는 규모 확장만으로는 성능 개선이 제한적일 수 있다는 점에 주목해야 해요.
Qwen3 모델을 활용한 분석 결과, 영어 웹 코퍼스에 잘 나타난 인구 집단에 대한 행동 및 의견 시뮬레이션은 규모 확장에 따라 빠르게 개선될 것으로 예상돼요. 반면, 일반 지식 및 추론 벤치마크와 상관관계가 낮은 장기 예측이나 소외된 의견은 규모 확장 속도가 느릴 수 있어요. 특히 행동 시뮬레이션에서는 인간의 인지적 편향이나 휴리스틱과 같은 요소에 대한 모델 보정이 어렵다는 점이 확인됐어요.
연구진은 규모 확장이 대부분의 사회 시뮬레이션에서 성능을 향상시키겠지만, 예외적인 경우도 존재하며 저자원 환경에서는 개선 효과가 제한적일 수 있다고 결론 내렸어요. 따라서 사회 시뮬레이션의 정확도를 높이기 위해서는 규모 확장 외에 추가적인 연구가 필요할 것으로 보입니다.
연구는 LLM 규모 확장 방식이 사회 시뮬레이션 성능에 미치는 영향을 분석하고, 규모 확장만으로는 해결할 수 없는 문제점과 개선 방향을 제시합니다.