연구진이 LLM의 추상적 추론 능력을 측정하기 위한 자동화 파이프라인 A2RBench를 공개했어요. A2RBench는 LLM이 추론 규칙을 생성하고, 검증된 규칙을 재사용하여 다양한 변형을 생성하는 방식으로 작동해요. 현재 LLM은 추상적 추론에서 인간 수준에 미치지 못하며, 3D 추론 능력은 2D, 1D 수준에도 못 미치는 것으로 나타났어요. 정보 복잡도가 높은 입력이 오히려 추론 과정을 단순화할 수 있다는 예상 밖의 결과도 확인되었어요.