연구진은 GPT-4, Gemini 1.5 Pro, DeepSeek-V3 등 주요 LLM 모델들을 소셜 미디어 분석 3가지 과제(저자 인증, 게시글 생성, 사용자 속성 추론)에 대해 평가했어요.
저자 인증 평가 시, 최신 트윗 데이터로 일반화 성능을 측정하여 데이터 편향을 줄였고, 게시글 생성 시에는 실제 사용자 반응을 측정하는 사용자 조사를 진행했어요.
이번 연구는 LLM 기반 소셜 미디어 분석에 대한 새로운 통찰력과 재현 가능한 벤치마크를 제공하며, 관련 코드와 데이터는 공개될 예정이에요.