연구진은 LLM이 인과 추론 벤치마크에서 높은 정확도를 보이지만, 구조적 추론인지 어휘 패턴 매칭인지 불분명하다는 점을 지적했어요. Caliper라는 새로운 방법을 통해 변수 이름을 플레이스홀더 토큰으로 대체하여 어휘적 앵커를 제거하고 인과 그래프는 유지했어요. 3.8B에서 671B까지 다양한 크기의 9개 LLM에서 어휘적 익명화는 정확도가 최대 29.6pp까지 떨어지는 것을 확인했어요.
Caliper 실험 결과, 40개 모델-벤치마크 셀 중 39개에서 긍정적인 격차가 나타났으며, CLadder의 유사 단어 부분 집합에서는 격차가 17배 감소했어요. 구조적 스캐폴딩과 few-shot in-context learning은 격차를 줄이지만, 주로 작은 모델의 P0 정확도를 낮추는 효과가 있었어요.
현재 instruction-tuned LLM은 어휘적 앵커가 제거되면 구조적 인과 추론의 증거를 거의 보이지 않으며, 이는 LLM이 어휘 패턴 매칭에 의존하고 있음을 시사해요.