연구진은 LLM의 물리적 속성 기반 추론 능력을 평가하기 위해 새로운 벤치마크 Affordance20Q를 공개했어요. 이 벤치마크는 객체 식별을 숨겨 LLM이 단순히 기억에 의존하는 것이 아닌 실제 추론을 수행하도록 설계됐어요. 15개 최신 LLM을 실험한 결과, 인간 수준의 성능에 비해 20% 이상의 격차가 발견됐어요.
Affordance20Q는 454개의 객체와 59개의 기능을 포함하며, 각 게임은 LLM이 물리적 속성에 대한 질문을 통해 숨겨진 객체의 기능을 추론하는 20-Questions 게임 형식으로 진행돼요. 연구 결과, LLM은 게임 진행 과정에서 중요한 질문을 하지 못하는 경향을 보였어요.
KB-Anchored Rule Induction (KARI) 파이프라인을 개발하여 지식 기반(KB)에 근거한 추론 규칙을 생성하고 LLM 성능을 개선했는데, 오픈소스 LLM의 성능을 최대 15.2% 향상시켰어요. 연구진은 Affordance20Q 코드와 데이터를 GitHub에 공개했어요.
향후 연구에서는 지식 기반의 제한적인 커버리지를 극복하여 LLM의 물리적 속성 기반 추론 능력을 더욱 향상시킬 수 있을 것으로 기대돼요.