연구진은 LLM의 수학적 추론 능력 향상을 위해 LLM 자체를 개념 숙달 시뮬레이터로 활용하는 프레임워크 CIKA를 제안했습니다. CIKA는 개념 상태를 '숙달'로 설정하고 정확도 변화를 통해 원인 효과를 추정하는 방식으로 작동합니다.
CIKA는 Interventional Capability Probe (ICP)를 통해 LLM이 특정 개념을 활용할 수 있는지 진단하며, 문제 난이도에 따른 혼란 변수를 분리하여 관찰 방식으로는 불가능한 분석을 가능하게 합니다.
7B 파라미터 LLM을 사용하여 CIKA는 Omni-MATH-Rule 벤치마크에서 69.7%의 정확도를 달성했으며, 기존 모델 대비 성능 향상을 보였습니다.