연구진은 LLM이 언어 지식을 저장하는 저장소로 연구되면서, 언어 생성과 언어 평가라는 두 가지 역할을 직접적으로 비교 분석했어요. 세 가지 화용적 상황에서 여러 LLM을 평가한 결과, 청자로써의 평가 능력이 화자로서의 생성 능력보다 훨씬 뛰어나다는 비대칭성이 확인되었어요. 현재 LLM에서 화용적 판단과 화용적 생성은 약하게 연관되어 있으며, 보다 통합적인 평가 방식이 필요하다는 점을 시사합니다.