본 연구는 감정적으로 격렬한 대화 맥락에서 LLM이 스스로 생성한 응답과 얼마나 일관성을 유지하는지 분석합니다. 세 가지의 거짓 주장 쿼리를 사용하여 LLM의 응답을 평가했으며, Claude-3.5-haiku, GPT4o-mini, Mistral-7B 모델을 대상으로 했습니다. 연구 결과, LLM은 특히 중간 정도의 감정 내용에서 거짓 믿음에 취약하며, 평가보다 생성에 우선순위를 두는 경향이 있다는 것을 확인했습니다.