연구팀은 LLM 기반 소셜 에이전트의 현실성을 스페인 온라인 뉴스 댓글 반응을 통해 평가했어요. Hatemedia 데이터셋을 활용, 5가지 LLM으로 생성한 댓글과 실제 댓글을 비교 분석했죠. 결과적으로, 초기 모델은 혐오 표현 부족, 모델별 감정 편향, 의미론적 불일치 등의 한계가 있었어요.
Qwen3 모델이 가장 균형 잡힌 결과를 보였지만, Mistral7B는 혐오 표현 과다 생성 문제를 드러냈어요. 실제 댓글 분포를 완벽히 재현하는 것은 어려움을 확인했죠.