연구진이 LLM의 그래프 추론 능력을 평가하는 벤치마크 'GraphInfer-Bench'를 공개했어요. 이 벤치마크는 단일 노드나 경로로는 답변할 수 없는 그래프 분석 질문에 대한 LLM의 답변 능력을 테스트해요. 기존 그래프 QA 프로토콜은 이러한 능력을 평가할 수 없다는 한계가 있었어요.
GraphInfer-Bench는 설명 및 비교 작업 5가지로 구성되며, 각 작업은 정답이 단일 노드에 존재하지 않도록 설계돼요. 6개의 실제 그래프에서 42,000개의 샘플을 자동으로 생성하고 4단계 품질 관리 프로토콜을 거쳤어요.
연구 결과, 그래프 토큰 정렬 모델, zero-shot LLM, Graph2Text, GNN 등 다양한 방법론이 테스트되었지만, 어떤 방법론도 LLM의 그래프 추론 능력 격차를 좁히지 못했어요. 특히 GNN은 LLM 기반 방법보다 뛰어난 성능을 보였어요.