LLM은 인간 행동 시뮬레이션 도구로 주목받고 있지만, 훈련 데이터의 한계로 인해 실험 시뮬레이션에 개입하면 잠재적 사용자 속성이 변동될 수 있습니다. 이로 인해 사용자 집단이 조건에 따라 달라져 효과 추정치가 왜곡될 수 있습니다. 연구진은 이러한 사용자 변동으로 인한 교란 가능성을 분석하고, 개입에 따른 속성 변화가 사용자 반응 차이를 과장하거나 축소시킬 수 있음을 밝혔습니다.
사용자 변동을 진단하기 위해 개입에 영향을 받지 않는 '부정 제어 결과'를 활용하는 방법을 제안했습니다. 이를 통해 개입 조건 간의 분포 변화를 파악하여 사용자 변동 여부를 확인할 수 있습니다. 또한, 설정 관련 변수를 추가하여 페르소나 사양을 조정하면 설문조사 및 다중 턴 에이전트 평가에서 편향을 줄일 수 있습니다.
연구 결과는 LLM 시뮬레이션 실험의 한계를 지적하고, 보다 신뢰성 있는 결과를 얻기 위한 방법론적 고려 사항을 제시합니다.