연구진은 LLM의 추론 능력 향상을 위한 강화 학습(RL) 훈련 규모와 작업 난이도 간의 상관관계를 분석하기 위해 ScaleLogic이라는 새로운 프레임워크를 개발했습니다.
ScaleLogic은 추론 계획의 깊이와 논리 표현력이라는 두 가지 난이도 축을 독립적으로 제어하며, 단순한 조건문부터 복잡한 명제 논리까지 다양한 논리 체계를 지원합니다.
연구 결과, 훈련 컴퓨팅 자원(T)은 추론 깊이(D)에 대해 거듭제곱 법칙을 따르며, 논리 표현력이 증가할수록 이 법칙의 지수(γ)도 증가하는 것으로 나타났습니다.