최근 JMIR Mental Health 저널에 발표된 논문에서 GPT-4o, Grok 3, Gemini 2.0 등 3개의 멀티모달 LLM에 표준 로르샤흐 검사를 실시하고 Exner 시스템으로 코딩하여 분석했어요.
연구자들은 모델의 지각 양식, 결정 요인, 인간 관련 콘텐츠 주제를 분석했지만, 연구 설계의 타당성에 대한 의문이 제기되고 있어요.
본문 작성자는 LLM 학습 데이터 오염 가능성, 이미지 인식 테스트가 아닌 통계적 연관성 회수 테스트인지, 통제 부족 등의 문제점을 지적하며 연구의 과학적 가치에 대한 논쟁을 불러일으켰어요.