PlanarBench는 LLM이 평면 그래프를 ASCII 아트로 그리는 공간 추론 능력을 평가하는 벤치마크입니다. 199개의 간단한 평면 그래프(2~7개 정점)를 사용하여 91개 모델을 평가했습니다.
평면 그래프의 Edge 개수가 난이도 예측에 가장 큰 영향을 미치는 것으로 나타났습니다(r = -0.85). 기존 LLM 그래프 벤치마크는 정점 개수만 난이도 축으로 사용했습니다.
PlanarBench는 LLM이 암기 없이 공간 추론을 수행하는지 확인하는 데 유용하며, 기존 벤치마크와 차별화되는 지표를 제공합니다.