대형 언어 모델(LLM)의 실용적 추론 평가는 평가 방법에 따라 모델 행동이 달라지기 때문에 어려운 과제입니다. 이번 연구는 스칼라 다양성을 활용하여 직접 확률 측정과 메타언어적 프롬프팅을 비교한 결과, 두 평가 방법 모두 일관되게 우위를 점하지 못하며 모델 패밀리, 프롬프트 전략, 과제 구조에 따라 실용적 행동이 크게 달라지는 것을 확인했습니다. 연구 결과는 LLM의 실용적 능력을 해석할 때 평가 설계의 중심적인 역할을 강조합니다.