연구진은 레이블 없이 LLM의 추론 실패를 진단하는 새로운 방법인 연산적 일관성(Operadic Consistency, OC)을 제시했어요.
OC는 모델이 제시된 분해 과정을 통해 얻은 답변과 직접적인 답변이 일치하는지 확인하는 방식으로, 12개 LLM에서 정확도와 강한 상관관계를 보였어요 (Pearson r 0.86~0.94).
OC는 기존 CoT-SC와 함께 사용하거나, 모델의 자체적인 사고 과정을 분석하여 분해 과정을 추출하는 방식으로 활용 가능하며, 성능 개선 효과를 보였어요.